シングルとマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換の高速シミュレーション

量子コンピューティングがますます実用的な局面を迎える中、GPUを活用したシミュレーションの重要性が高まっています。特に、NVIDIAが開発するCUDA-Qの登場により、GPUによる量子アルゴリズムの実行環境が強化され、研究・開発の高速化が可能となっています。

本記事では、量子アルゴリズムの中でも基本的かつ重要な「量子フーリエ変換（Quantum Fourier Transform, QFT）」を題材に、シングルGPUとマルチGPU（最大8枚）環境でのCUDA-Qシミュレーション速度を比較しました。使用したGPUはRTX 4090とNVIDIA H200です。

CUDA-Qとは？

CUDA-Q は NVIDIA が提供する量子アルゴリズムのプログラミング・実行フレームワークで、GPUベースで量子回路のシミュレーションを高速に行うことが可能です。cuQuantum SDK に含まれる cuStateVec や cuTensorNet などのライブラリを内部的に活用し、量子状態ベクトルやテンソルネットワークによる計算を効率化します。

CUDA-Q は Python インターフェースを通して使うことができ、量子ビット数が増加するにつれて複雑になる回路の実行も、GPUの並列計算能力を活かして実行できます。

ベンチマーク条件

実行アルゴリズム：

量子フーリエ変換（QFT）
入力量子ビット数を変化させながら、それぞれのシミュレーション時間を測定

使用環境：

環境	GPU構成	備考
RTX 4090 Single	1枚
RTX 4090 Multi x2	2枚	MPI
H200 Single	1枚
H200 Multi x8	8枚	MPI

結果：シミュレーション時間の比較

以下は、各環境での**QFTシミュレーション時間（秒）**をプロットしたグラフです：

※縦軸は対数スケール（log）です。

各曲線の傾向は以下の通りです：

RTX 4090 Single は単体のGPUでとても効率的に計算ができている。量子ビット数の最大は31。
RTX 4090 Multi x2 は速度はオーバーヘッドが大きいが（環境によるが）最大量子ビットは32に伸びた。
H200 Single はビット数の増加に対する性能劣化が少なく、34qubitまで実行可能。
H200 Multi x8 は圧倒的なスケーラビリティを示し、36qubit以上の大規模QFTも現実的に。（37量子ビット以上もできると思ったがエラーに）

考察：GPUの構成による違い

RTX 4090 は単体性能が非常に高いため、小〜中規模な量子回路には最適。2枚のマルチGPU化により32qubitまで対応可能。
H200 はメモリ帯域と通信性能に優れており、量子ビット数が30を超えるような大規模回路では、マルチノード構成の恩恵が顕著に現れた。
CUDA-Q のマルチGPUバックエンドは MPI を介したプロセス分散を行うため、MPI 実行環境の構築と GPU 間通信の最適化が性能に影響する。

結論

CUDA-Q と現行最強クラスのGPUを用いることで、30〜36量子ビット規模のQFTを容易にシミュレーションすることが可能となりました。今後、量子誤り訂正付きの大規模アルゴリズムを検証する際にも、こうしたGPUベースの並列シミュレーションは極めて重要になります。

インストールに際してはMPI対応にはconda installを通じた環境構築が極めて簡単にマルチGPUを導入できました。

https://pypi.org/project/cudaq/

のドキュメントにマルチGPUの導入方法についてcondaを利用した方法が記述されています。

量子コンピュータSIM：H200のマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換

Yuichiro Minato