common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Overview
Contact
Event
Project
Research

Terms of service (Web service)

Terms of service (Quantum and ML Cloud service)

Privacy policy


Sign in
Sign up
common.title

[量子コンピューティング]NVIDIA T4とV100でのcuQuantum Appliance / cuStateVec ベンチマーク

Yuichiro Minato

2023/09/18 03:57

最近GPUを利用される方が増えているのでちょっとずつベンチマークを取ります。

下記はT4とV100での速度の違いを載せています。V100は4GPUノードを使っています。

追記

使ったノードは後から確認したらV100ノードのVRAMが16GBバージョンでした。なので合計で1ノードで64GBしかありません。少しもの足りないですね。

CPUとT4の速度差も以前ブログで載せましたが、マシンにもよりますが、15量子ビット前後から差がつくのでした。

CPUではこれ以上は厳しいので、20-29量子ビットはGPU同士での速度比較にしたいと思います。

下記は単一のT4ノードと4GPUを搭載したNVLINK対応のV100ノードになります。

単一のV100とT4の比較では結構T4が善戦していました。

https://blueqat.com/yuichiro_minato2/3423f23f-628d-4d93-ae91-f26ae83688bc

今回は4GPUのcuQuantum Appliance対応のV100ノードを利用し、単一ノードでのシミュレーションを行いました。

ここでは、22量子ビットくらいからかなり速度差が出ますね。

T4は、20量子ビットから29量子ビットで、

[0.048171281814575195, 0.0784001350402832, 0.14328503608703613, 0.2778923511505127, 0.5529191493988037, 1.1201775074005127, 2.2969729900360107, 4.7476561069488525, 9.820889472961426, 20.347250938415527](単位:秒)

V100 4GPUは、20量子ビットから29量子ビットで、

[0.01749444007873535, 0.035036563873291016, 0.019758224487304688, 0.02976536750793457, 0.0515437126159668, 0.09291481971740723, 0.1865699291229248, 0.4053304195404053, 0.7974536418914795, 1.6286036968231201](単位:秒)

22量子ビットくらいから一桁速度が違いますね。

もはや29量子ビット以上はT4を利用するのは難しそうです。

VRAM16Gで使い勝手もいいので入門としては使いやすいです。

NVIDIA cuQuantumを利用することでFTQCやNISQでの高速計算ができそうです。

今回はマルチGPUを利用しましたので、cuQuantum Applianceを利用しました。

以上です。

© 2025, blueqat Inc. All rights reserved