common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

[量子コンピューティング]NVIDIA T4とV100でのcuQuantum Appliance / cuStateVec ベンチマーク

Yuichiro Minato

2023/09/18 03:57

最近GPUを利用される方が増えているのでちょっとずつベンチマークを取ります。

下記はT4とV100での速度の違いを載せています。V100は4GPUノードを使っています。

追記

使ったノードは後から確認したらV100ノードのVRAMが16GBバージョンでした。なので合計で1ノードで64GBしかありません。少しもの足りないですね。

CPUとT4の速度差も以前ブログで載せましたが、マシンにもよりますが、15量子ビット前後から差がつくのでした。

CPUではこれ以上は厳しいので、20-29量子ビットはGPU同士での速度比較にしたいと思います。

下記は単一のT4ノードと4GPUを搭載したNVLINK対応のV100ノードになります。

単一のV100とT4の比較では結構T4が善戦していました。

https://blueqat.com/yuichiro_minato2/3423f23f-628d-4d93-ae91-f26ae83688bc

今回は4GPUのcuQuantum Appliance対応のV100ノードを利用し、単一ノードでのシミュレーションを行いました。

ここでは、22量子ビットくらいからかなり速度差が出ますね。

T4は、20量子ビットから29量子ビットで、

[0.048171281814575195, 0.0784001350402832, 0.14328503608703613, 0.2778923511505127, 0.5529191493988037, 1.1201775074005127, 2.2969729900360107, 4.7476561069488525, 9.820889472961426, 20.347250938415527](単位:秒)

V100 4GPUは、20量子ビットから29量子ビットで、

[0.01749444007873535, 0.035036563873291016, 0.019758224487304688, 0.02976536750793457, 0.0515437126159668, 0.09291481971740723, 0.1865699291229248, 0.4053304195404053, 0.7974536418914795, 1.6286036968231201](単位:秒)

22量子ビットくらいから一桁速度が違いますね。

もはや29量子ビット以上はT4を利用するのは難しそうです。

VRAM16Gで使い勝手もいいので入門としては使いやすいです。

NVIDIA cuQuantumを利用することでFTQCやNISQでの高速計算ができそうです。

今回はマルチGPUを利用しましたので、cuQuantum Applianceを利用しました。

以上です。

© 2025, blueqat Inc. All rights reserved