common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

量子コンピュータSIM:H200のマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換

Yuichiro Minato

2025/03/30 15:46

シングルとマルチノードGPUを活用したCUDA-Qによる量子フーリエ変換の高速シミュレーション

量子コンピューティングがますます実用的な局面を迎える中、GPUを活用したシミュレーションの重要性が高まっています。特に、NVIDIAが開発するCUDA-Qの登場により、GPUによる量子アルゴリズムの実行環境が強化され、研究・開発の高速化が可能となっています。

本記事では、量子アルゴリズムの中でも基本的かつ重要な「量子フーリエ変換(Quantum Fourier Transform, QFT)」を題材に、シングルGPUとマルチGPU(最大8枚)環境でのCUDA-Qシミュレーション速度を比較しました。使用したGPUはRTX 4090NVIDIA H200です。

CUDA-Qとは?

CUDA-Q は NVIDIA が提供する量子アルゴリズムのプログラミング・実行フレームワークで、GPUベースで量子回路のシミュレーションを高速に行うことが可能です。cuQuantum SDK に含まれる cuStateVeccuTensorNet などのライブラリを内部的に活用し、量子状態ベクトルやテンソルネットワークによる計算を効率化します。

CUDA-Q は Python インターフェースを通して使うことができ、量子ビット数が増加するにつれて複雑になる回路の実行も、GPUの並列計算能力を活かして実行できます。

ベンチマーク条件

実行アルゴリズム:

  • 量子フーリエ変換(QFT)
  • 入力量子ビット数を変化させながら、それぞれのシミュレーション時間を測定

使用環境:

環境 GPU構成 備考
RTX 4090 Single 1枚
RTX 4090 Multi x2 2枚 MPI
H200 Single 1枚
H200 Multi x8 8枚 MPI

結果:シミュレーション時間の比較

以下は、各環境での**QFTシミュレーション時間(秒)**をプロットしたグラフです:

※縦軸は対数スケール(log)です。

image

各曲線の傾向は以下の通りです:

  • RTX 4090 Single は単体のGPUでとても効率的に計算ができている。量子ビット数の最大は31。
  • RTX 4090 Multi x2 は速度はオーバーヘッドが大きいが(環境によるが)最大量子ビットは32に伸びた。
  • H200 Single はビット数の増加に対する性能劣化が少なく、34qubitまで実行可能。
  • H200 Multi x8 は圧倒的なスケーラビリティを示し、36qubit以上の大規模QFTも現実的に。(37量子ビット以上もできると思ったがエラーに)

考察:GPUの構成による違い

  • RTX 4090 は単体性能が非常に高いため、小〜中規模な量子回路には最適。2枚のマルチGPU化により32qubitまで対応可能。
  • H200 はメモリ帯域と通信性能に優れており、量子ビット数が30を超えるような大規模回路では、マルチノード構成の恩恵が顕著に現れた。
  • CUDA-Q のマルチGPUバックエンドは MPI を介したプロセス分散を行うため、MPI 実行環境の構築と GPU 間通信の最適化が性能に影響する。

結論

CUDA-Q と現行最強クラスのGPUを用いることで、30〜36量子ビット規模のQFTを容易にシミュレーションすることが可能となりました。今後、量子誤り訂正付きの大規模アルゴリズムを検証する際にも、こうしたGPUベースの並列シミュレーションは極めて重要になります。

インストールに際してはMPI対応にはconda installを通じた環境構築が極めて簡単にマルチGPUを導入できました。

https://pypi.org/project/cudaq/

のドキュメントにマルチGPUの導入方法についてcondaを利用した方法が記述されています。

© 2025, blueqat Inc. All rights reserved