common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Overview
Contact
Event
Project
Research

Terms of service (Web service)

Terms of service (Quantum and ML Cloud service)

Privacy policy


Sign in
Sign up
common.title

量子コンピュータSIM:H200のマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換

Yuichiro Minato

2025/03/30 15:46

シングルとマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換の高速シミュレーション

量子コンピューティングがますます実用的な局面を迎える中、GPUを活用したシミュレーションの重要性が高まっています。特に、NVIDIAが開発するCUDA-Qの登場により、GPUによる量子アルゴリズムの実行環境が強化され、研究・開発の高速化が可能となっています。

本記事では、量子アルゴリズムの中でも基本的かつ重要な「量子フーリエ変換(Quantum Fourier Transform, QFT)」を題材に、シングルGPUとマルチGPU(最大8枚)環境でのCUDA-Qシミュレーション速度を比較しました。使用したGPUはRTX 4090NVIDIA H200です。

CUDA-Qとは?

CUDA-Q は NVIDIA が提供する量子アルゴリズムのプログラミング・実行フレームワークで、GPUベースで量子回路のシミュレーションを高速に行うことが可能です。cuQuantum SDK に含まれる cuStateVeccuTensorNet などのライブラリを内部的に活用し、量子状態ベクトルやテンソルネットワークによる計算を効率化します。

CUDA-Q は Python インターフェースを通して使うことができ、量子ビット数が増加するにつれて複雑になる回路の実行も、GPUの並列計算能力を活かして実行できます。

ベンチマーク条件

実行アルゴリズム:

  • 量子フーリエ変換(QFT)
  • 入力量子ビット数を変化させながら、それぞれのシミュレーション時間を測定

使用環境:

環境 GPU構成 備考
RTX 4090 Single 1枚
RTX 4090 Multi x2 2枚 MPI
H200 Single 1枚
H200 Multi x8 8枚 MPI

結果:シミュレーション時間の比較

以下は、各環境での**QFTシミュレーション時間(秒)**をプロットしたグラフです:

※縦軸は対数スケール(log)です。

image

各曲線の傾向は以下の通りです:

  • RTX 4090 Single は単体のGPUでとても効率的に計算ができている。量子ビット数の最大は31。
  • RTX 4090 Multi x2 は速度はオーバーヘッドが大きいが(環境によるが)最大量子ビットは32に伸びた。
  • H200 Single はビット数の増加に対する性能劣化が少なく、34qubitまで実行可能。
  • H200 Multi x8 は圧倒的なスケーラビリティを示し、36qubit以上の大規模QFTも現実的に。(37量子ビット以上もできると思ったがエラーに)

考察:GPUの構成による違い

  • RTX 4090 は単体性能が非常に高いため、小〜中規模な量子回路には最適。2枚のマルチGPU化により32qubitまで対応可能。
  • H200 はメモリ帯域と通信性能に優れており、量子ビット数が30を超えるような大規模回路では、マルチノード構成の恩恵が顕著に現れた。
  • CUDA-Q のマルチGPUバックエンドは MPI を介したプロセス分散を行うため、MPI 実行環境の構築と GPU 間通信の最適化が性能に影響する。

結論

CUDA-Q と現行最強クラスのGPUを用いることで、30〜36量子ビット規模のQFTを容易にシミュレーションすることが可能となりました。今後、量子誤り訂正付きの大規模アルゴリズムを検証する際にも、こうしたGPUベースの並列シミュレーションは極めて重要になります。

インストールに際してはMPI対応にはconda installを通じた環境構築が極めて簡単にマルチGPUを導入できました。

https://pypi.org/project/cudaq/

のドキュメントにマルチGPUの導入方法についてcondaを利用した方法が記述されています。

© 2025, blueqat Inc. All rights reserved