🚀 CUDA-QによるGPU別実行性能比較：5090 / 4090 / 3090を徹底検証！

量子アルゴリズムの高速化において、GPUのパフォーマンスは非常に重要です。
本記事では、NVIDIAの量子開発環境「CUDA-Q」を使用し、**3世代のGPU（RTX 5090 / 4090 / 3090）**における 量子ビット数と実行時間の関係を比較しました。

⚙️ 実験概要

使用ライブラリ：CUDA-Q（cudaq.sample() によるGHZ状態のシミュレーション）
比較対象：
- GPU：RTX 5090 / 4090 / 3090
- CPU：それぞれのGPU搭載マシンに対応するCPU（参考値,3090:, 4090:EPYC 7B12, 5090:Ryzen9 9900x）
対象量子ビット数：
- 5〜25量子ビット：CPUとGPUの比較
- 26〜31量子ビット：GPUのみでの拡張計測（CPUでは実行困難なため）
測定値：1回のcudaq.sample()呼び出しの実行時間（秒）

図は 5〜25量子ビットのCPU/GPU比較、右図は GPUのみ（26〜31量子ビット） の結果です。

RTX 5090 は全体的に圧倒的なスピードを記録。
- 特に10量子ビット以下では 0.0006秒台 の超高速実行。
- 25量子ビットでも 0.004秒程度と、前世代の約10倍以上の速さ。
RTX 3090 は安定しているが、全体的に5090・4090より遅く、特に20量子ビットを超えると差が大きくなる。

Qubits	5090 GPU	4090 GPU	3090 GPU
10	0.0006s	0.0911s	0.0030s
20	0.0014s	0.0043s	0.0032s
25	0.0042s	0.0243s	0.0347s
31	0.2328s	0.6469s	0.8427s

※ 単位はすべて秒（秒数が短いほど高速）

項目	結論
最速GPU	RTX 5090（全領域で圧倒的な処理速度）
旧世代	3090は処理可能だが、25Q以上は限界に近い
CUDA-Qの強み	GPUごとの違いをシンプルに比較でき、バックエンド切替も簡単
実用性	25Q以上の処理でも1秒以内で完了する性能は研究・産業応用にも有望

5090は32GBのVRAMですが、3090や4090と状態ベクトルで計算できる範囲は31量子ビットまでで変わりませんでした。

項目	内容
OS	Ubuntu 22.04
CUDA	12.1
CUDA-Q	最新バージョン
各GPUのVRAM	5090: 32GB / 4090: 24GB / 3090: 24GB
Python	3.10
実行方法	`cudaq.sample(kernel)` によるサンプリング実行時間の計測