common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

🚀 NVIDIA CUDA-QによるGPU別量子コンピューティング実行性能比較:5090 / 4090 / 3090を検証!

Yuichiro Minato

2025/03/28 06:02

🚀 CUDA-QによるGPU別実行性能比較:5090 / 4090 / 3090を徹底検証!

量子アルゴリズムの高速化において、GPUのパフォーマンスは非常に重要です。
本記事では、NVIDIAの量子開発環境「CUDA-Q」を使用し、**3世代のGPU(RTX 5090 / 4090 / 3090)**における 量子ビット数と実行時間の関係を比較しました。

⚙️ 実験概要

  • 使用ライブラリ:CUDA-Q(cudaq.sample() によるGHZ状態のシミュレーション)
  • 比較対象:
    • GPU:RTX 5090 / 4090 / 3090
    • CPU:それぞれのGPU搭載マシンに対応するCPU(参考値,3090:, 4090:EPYC 7B12, 5090:Ryzen9 9900x)
  • 対象量子ビット数:
    • 5〜25量子ビット:CPUとGPUの比較
    • 26〜31量子ビット:GPUのみでの拡張計測(CPUでは実行困難なため)
  • 測定値:1回のcudaq.sample()呼び出しの実行時間(秒)

📈 実行時間グラフ

図は 5〜25量子ビットのCPU/GPU比較、右図は GPUのみ(26〜31量子ビット) の結果です。

image

🔍 考察ポイント

✅ GPUの世代差が顕著

  • RTX 5090 は全体的に圧倒的なスピードを記録。
    • 特に10量子ビット以下では 0.0006秒台 の超高速実行。
    • 25量子ビットでも 0.004秒程度と、前世代の約10倍以上の速さ。
  • RTX 3090 は安定しているが、全体的に5090・4090より遅く、特に20量子ビットを超えると差が大きくなる。

✅ 25量子ビット以降でもGPUは余裕

  • **CPUでは実行時間が急増(最大77秒以上)**する一方、
  • GPUでは30量子ビットでも数百ミリ秒台、31量子ビットでも1秒未満で処理可能。
  • CUDA-Qのバックエンドが極めて効率的に量子回路をGPU上で展開・シミュレートしていることがわかる。

📊 数値ハイライト(抜粋)

Qubits 5090 GPU 4090 GPU 3090 GPU
10 0.0006s 0.0911s 0.0030s
20 0.0014s 0.0043s 0.0032s
25 0.0042s 0.0243s 0.0347s
31 0.2328s 0.6469s 0.8427s

※ 単位はすべて秒(秒数が短いほど高速)

🧠 まとめ

項目 結論
最速GPU RTX 5090(全領域で圧倒的な処理速度)
旧世代 3090は処理可能だが、25Q以上は限界に近い
CUDA-Qの強み GPUごとの違いをシンプルに比較でき、バックエンド切替も簡単
実用性 25Q以上の処理でも1秒以内で完了する性能は研究・産業応用にも有望

5090は32GBのVRAMですが、3090や4090と状態ベクトルで計算できる範囲は31量子ビットまでで変わりませんでした。

🧪 今後の展望

  • より大規模な量子回路(35Q以上)での性能評価
  • CUDA-Qと量子AI(QML)アルゴリズムの組み合わせによる検証
  • cuQuantumなど他のNVIDIA量子スタックとの統合パフォーマンス評価

✅ 使用環境情報(参考)

項目 内容
OS Ubuntu 22.04
CUDA 12.1
CUDA-Q 最新バージョン
各GPUのVRAM 5090: 32GB / 4090: 24GB / 3090: 24GB
Python 3.10
実行方法 cudaq.sample(kernel) によるサンプリング実行時間の計測

© 2025, blueqat Inc. All rights reserved