common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Overview
Contact
Event
Project
Research

Terms of service (Web service)

Terms of service (Quantum and ML Cloud service)

Privacy policy


Sign in
Sign up
common.title

🚀 NVIDIA CUDA-QによるGPU別量子コンピューティング実行性能比較:5090 / 4090 / 3090を検証!

Yuichiro Minato

2025/03/28 06:02

🚀 CUDA-QによるGPU別実行性能比較:5090 / 4090 / 3090を徹底検証!

量子アルゴリズムの高速化において、GPUのパフォーマンスは非常に重要です。
本記事では、NVIDIAの量子開発環境「CUDA-Q」を使用し、**3世代のGPU(RTX 5090 / 4090 / 3090)**における 量子ビット数と実行時間の関係を比較しました。

⚙️ 実験概要

  • 使用ライブラリ:CUDA-Q(cudaq.sample() によるGHZ状態のシミュレーション)
  • 比較対象:
    • GPU:RTX 5090 / 4090 / 3090
    • CPU:それぞれのGPU搭載マシンに対応するCPU(参考値,3090:, 4090:EPYC 7B12, 5090:Ryzen9 9900x)
  • 対象量子ビット数:
    • 5〜25量子ビット:CPUとGPUの比較
    • 26〜31量子ビット:GPUのみでの拡張計測(CPUでは実行困難なため)
  • 測定値:1回のcudaq.sample()呼び出しの実行時間(秒)

📈 実行時間グラフ

図は 5〜25量子ビットのCPU/GPU比較、右図は GPUのみ(26〜31量子ビット) の結果です。

image

🔍 考察ポイント

✅ GPUの世代差が顕著

  • RTX 5090 は全体的に圧倒的なスピードを記録。
    • 特に10量子ビット以下では 0.0006秒台 の超高速実行。
    • 25量子ビットでも 0.004秒程度と、前世代の約10倍以上の速さ。
  • RTX 3090 は安定しているが、全体的に5090・4090より遅く、特に20量子ビットを超えると差が大きくなる。

✅ 25量子ビット以降でもGPUは余裕

  • **CPUでは実行時間が急増(最大77秒以上)**する一方、
  • GPUでは30量子ビットでも数百ミリ秒台、31量子ビットでも1秒未満で処理可能。
  • CUDA-Qのバックエンドが極めて効率的に量子回路をGPU上で展開・シミュレートしていることがわかる。

📊 数値ハイライト(抜粋)

Qubits 5090 GPU 4090 GPU 3090 GPU
10 0.0006s 0.0911s 0.0030s
20 0.0014s 0.0043s 0.0032s
25 0.0042s 0.0243s 0.0347s
31 0.2328s 0.6469s 0.8427s

※ 単位はすべて秒(秒数が短いほど高速)

🧠 まとめ

項目 結論
最速GPU RTX 5090(全領域で圧倒的な処理速度)
旧世代 3090は処理可能だが、25Q以上は限界に近い
CUDA-Qの強み GPUごとの違いをシンプルに比較でき、バックエンド切替も簡単
実用性 25Q以上の処理でも1秒以内で完了する性能は研究・産業応用にも有望

5090は32GBのVRAMですが、3090や4090と状態ベクトルで計算できる範囲は31量子ビットまでで変わりませんでした。

🧪 今後の展望

  • より大規模な量子回路(35Q以上)での性能評価
  • CUDA-Qと量子AI(QML)アルゴリズムの組み合わせによる検証
  • cuQuantumなど他のNVIDIA量子スタックとの統合パフォーマンス評価

✅ 使用環境情報(参考)

項目 内容
OS Ubuntu 22.04
CUDA 12.1
CUDA-Q 最新バージョン
各GPUのVRAM 5090: 32GB / 4090: 24GB / 3090: 24GB
Python 3.10
実行方法 cudaq.sample(kernel) によるサンプリング実行時間の計測

© 2025, blueqat Inc. All rights reserved