「CUDA-Qで検証:H200を含む最新シングルGPUによる量子フーリエ変換ベンチマーク」
〜 22量子ビット超から30量子ビット超の実性能を比較 〜
NVIDIAが提供するCUDA-Qは、GPUを活用したハイブリッド量子計算のための最新ツールキットです。blueqatではこのCUDA-Qを用いて、量子フーリエ変換(QFT)回路のベンチマークを実施しました。
今回の目的は、H200を含む最新のシングルGPU環境において、どこまで高ビットの量子回路が高速に処理できるかを実測することです。特に22量子ビットを超える領域で、CUDA-Q + GPU の真価が試されます。
🧪 ベンチマーク環境
使用ツール:CUDA-Q
対象回路:Quantum Fourier Transform (QFT)
対象GPU(全てシングルGPU):
- NVIDIA RTX 4090
- NVIDIA RTX 5090
- NVIDIA L40s
- NVIDIA H100 SXM
- NVIDIA H100 NVL
- NVIDIA H200
📈 22量子ビット以上の実行時間(ログスケール)
以下のグラフでは、22量子ビット以上のGPU時間を対数スケールで可視化しています。ログスケールを用いることで、細かい性能差を視認できます。
特にH200やH100 NVLは、30量子ビットを超えても緩やかにスケールしており、CUDA-QとAmpere以降のアーキテクチャの親和性の高さを示しています。
📈 30量子ビット以上の実行時間(リニアスケール)
次のグラフは、30量子ビット以上の処理時間をリニアスケールで比較したものです。時間の絶対値を直接比較することで、実環境での応答性や計算リソース見積もりに役立ちます。
- H100 や H200 では、30量子ビットで数秒〜十数秒レベル
- 4090や5090はVRAMが24/32GBのため、少し量子ビット数に限界が早く来る。
- L40SもVRAMが48GBのため、量子ビット数は少し多く計算できるが速度に限界が
- H100やH200は速度面は同様だが、VRAMの大きさが計算できる範囲に影響する。
✅ 考察とまとめ
- CUDA-Qは既存のGPUリソースを活用した量子回路実行に非常に有効
- 特にH200やH100では、30量子ビットを超える中〜大規模回路の処理にも実用的な性能
- シングルGPU構成でも、CUDA-Q環境ではクラウドやオンプレ環境での量子アルゴリズム研究が加速
blueqatでは今後も、CUDA-QをはじめとするGPU量子コンピューティングの現実解を探る取り組みを続けていきます。
📌 補足
このベンチマークは、実際の量子コンピュータではなくGPUベースの量子回路シミュレーションです。ですが、量子アルゴリズムの開発・評価・検証においては非常に実践的であり、企業や研究機関でも今後活用が広がると予想されます。