こんにちは、以前はいろんなGPUマシンでベンチマークを取りました。今回は単体のGPUでの計測です。
以前の複数GPU構成に加えてみました。以前はV100 VRAM16Gの4枚、VRAM32Gの8枚構成、A100VRAM40Gの8枚構成を実装しました。
今回はNVIDIA cuQuantum/cuStateVec + Qiskit-Aer-GPUでT4 VRAM16GBとコンシューマのRTX4090 VRAM24Gのベンチマークを取りました。
QV回路でdepth10です。
結果は下記の通りです。
4090は流石に早いですね。T4も早いとおもったのですが、4090の方が早かったです。流石に複数GPUには全く勝てないという結果に。VRAMも24Gだと30量子ビットが限度でした。