[和訳] NVIDIA DGX cuQuantum Applianceでスーパーコンピューティングスケールの量子回路シミュレーションを実現

日本語で読みたい方もいると思うので、和訳してみます。

「量子コンピュータのアプリケーションやアルゴリズムを開発する上で、量子回路シミュレーションは非常に重要です。既知の量子コンピュータのアルゴリズムやユースケースには破壊的な性質があるため、政府、企業、学界の量子アルゴリズム研究者は、これまでにない大規模な量子システムで新しい量子アルゴリズムを開発し、ベンチマークを実施しています。」

「大規模でエラー訂正可能な量子コンピュータが存在しないため、これらのアルゴリズムの開発には、量子回路シミュレーションが最適です。量子回路シミュレーションは計算量が多く、GPUは量子状態を計算するための自然なツールとなります。より大規模な量子システムのシミュレーションを行うには、スーパーコンピュータの計算能力をフルに活用するために、複数のGPUと複数のノードに計算を分散させる必要があります。」

現在世間で出回っている量子コンピュータは性能面で課題を抱えており、GPUが最近の性能向上に際してかなり良い計算をできるようになりました。

「NVIDIA cuQuantumは、GPUによる量子回路シミュレーションの高速化とスケールアップを容易にするソフトウェア開発キット（SDK）であり、量子的優位性への道筋を探るための新しい能力を促進するものです。」

「このSDKには、最近リリースされたNVIDIA DGX cuQuantum Appliance（展開可能なソフトウェアコンテナ）が含まれており、マルチGPU状態ベクトルシミュレーションをサポートしています。一般化されたマルチGPU APIもcuStateVecで利用可能になり、あらゆるシミュレータに簡単に統合できるようになりました。テンソルネットワークシミュレーションでは、cuQuantum cuTensorNetライブラリが提供するスライスAPIにより、複数のGPUまたは複数のノードに分散したテンソルネットワークの収縮を高速化することができます。これにより、ユーザーはほぼリニアな強力なスケーリングでDGX A100システムを活用できるようになりました。」

「NVIDIA cuQuantum SDKは、状態ベクトルおよびテンソル・ネットワーク・メソッドのためのライブラリを備えています。この記事では、マルチノード状態ベクトル・シミュレーションのためのcuStateVecとDGX cuQuantum Applianceに焦点を当てます。cuTensorNetとテンソル・ネットワーク・メソッドの詳細については、Scaling Quantum Circuit Simulation with NVIDIA cuTensorNetをご覧ください。」

特に最初に開発されたcuStateVecを利用することで多くの問題を解き、研究に役立てることができます。今回は単一GPUではなく、複数のGPUやノードを活用した新しいGPUのシステムについて言及されています。

「マルチノード、マルチGPUのステートベクターシミュレーションとは」

「ノードとは、ラックレディなフォームファクタを維持しながら連携して動作するように最適化された、緊密に相互接続されたプロセッサで構成される単一パッケージユニットのことを指します。マルチノード・マルチGPU状態ベクトル・シミュレーションは、ノード内の複数のGPUとGPUの複数のノードを利用して、解決までの時間を短縮し、他の方法では不可能な大きな問題サイズを提供します。」

「DGX では、大容量メモリ、低レイテンシ、高バンド幅の利点を活用することができます。DGX H100システムは、第4世代のNVLinkと第3世代のNVSwitchを活用し、8つのH100 Tensor Core GPUで構成されています。このノードは、量子回路シミュレーションに威力を発揮します。」

現在のA100システムのほか、次世代のH100システムにおいてもさらにパフォーマンスが向上する予定となっています。

「8つのGPUすべてにNVIDIAマルチGPU対応のDGX cuQuantum Applianceを搭載したDGX A100ノードで実行したところ、3つの一般的な量子計算アルゴリズムについて、64コアのデュアルAMD EPYC 7742プロセッサーに比べて70倍から290倍のスピードアップを達成しました。量子フーリエ変換、Shorのアルゴリズム、Sycamore Supremacy回路です。これにより、ユーザーは1つのDGX A100ノード（8GPU）を使用して、状態ベクトル法で最大36量子ビットのシミュレーションを行うことができました。図1に示す結果は、私たちのチームが実装したソフトウェアのみの機能強化により、この機能のベンチマークを前回発表したときから4.4倍向上しています。」

CPUと比べて70-290倍の高速化、現在はDGX A100をつかって最大で36量子ビットのシミュレーションです。このサイズはビデオメモリなどが律速となります。それにしてもベンチマークも前回の発表から4.4倍の高速化を実現しています。

「NVIDIA cuStateVec チームは，1 つのノード内の複数の GPU に加えて，複数のノードを活用する性能の高い手段を集中的に調査してきました。ほとんどのゲートアプリケーションは完全な並列演算であるため，ノード内およびノード間の GPU をオーケストレーションして，分割統治することが可能です。」

シミュレーション中、状態ベクトルは分割されて GPU に分散され、各 GPU は状態ベクトルの一部に対して並列にゲートを適用することができます。多くの場合、これはローカルに処理できますが、高次量子ビットへのゲート適用には、分散した状態ベクトル間の通信が必要です。

典型的なアプローチとしては、まず量子ビットを並べ替え、その後、他のGPUやノードにアクセスせずに各GPUでゲートを適用する方法があります。この並べ替え自体、デバイス間のデータ転送が必要です。これを効率的に行うには、高いインターコネクトバンド幅が非常に重要になります。この並列性を効率的に利用することは、複数ノードにまたがっても自明ではありません。

内容が難しいですが、様々な方法で並列化されているようです。。。

「マルチノードDGX cuQuantum Applianceのご紹介」

「状態ベクトルベースの量子回路シミュレーションのパフォーマンスと任意スケールの答えがここにあります。NVIDIAは、新しいDGX cuQuantum Applianceで提供されるマルチノード、マルチGPU機能を発表することを嬉しく思います。次のリリースでは、cuQuantumコンテナのユーザーなら誰でも、IBM Qiskitフロントエンドを迅速かつ容易に活用し、世界最大のNVIDIAシステム上で量子回路シミュレーションを行うことができるようになります。」

ついにIBM Qiskitの対応も進んでいます。

「cuQuantumのミッションは、できるだけ多くのユーザーが量子回路シミュレーションを簡単に高速化し、拡張できるようにすることです。そのために、cuQuantumチームは、NVIDIAのマルチノード・アプローチをAPIに製品化する作業を行っており、来年早々には一般公開される予定です。このアプローチにより、より幅広いNVIDIA GPUベースのシステムを活用して、状態ベクトル量子回路シミュレーションの規模を拡大することができるようになります。」

「NVIDIAマルチノードDGX cuQuantum Applianceは、開発の最終段階にあり、NVIDIA DGX SuperPODシステムで利用できるクラス最高の性能を間もなく利用できるようになります。これは、Dockerと数行のコードの助けを借りて素早くデプロイできるNGCホストのコンテナイメージとして提供される予定です。」

「DGXシステムの中で最速のI/Oアーキテクチャを持つNVIDIA DGX H100は、NVIDIA DGX SuperPODなどの大規模AIクラスタ、スケーラブルなAIのための企業の青写真、そして今回の量子回路シミュレーションのインフラストラクチャのための基礎構築ブロックとなるものです。DGX H100の8つのNVIDIA H100 GPUは、新しい高性能な第4世代NVLink技術を使用し、4つの第3世代NVSwitchを介して相互接続を行います。」

「第4世代のNVLinkテクノロジーは、前世代の1.5倍の通信帯域幅を実現し、PCIe Gen5と比較して最大7倍高速化されています。GPU間の総スループットは最大7.2TB/secを実現し、前世代のDGX A100と比較して約1.5倍に向上しています。」

「8台のNVIDIA ConnectX-7 InfiniBand / Ethernetアダプタ（それぞれ400 GB/秒で動作）と共に、DGX H100システムは、複数のノードに分散する状態ベクトル間のグローバル通信のオーバーヘッドを節約する強力な高速ファブリックを提供します。マルチノード、マルチGPUのcuQuantumと、最先端のネットワーキング・ハードウェアおよびソフトウェア最適化を活用した大規模なGPUアクセラレーション計算を組み合わせることで、DGX H100システムは、50量子ビットを超えるフルステートベクトル量子回路シミュレーションなどの最大の課題を満たすために、数百または数千ノードに拡張することが可能になります。」

「この作品のベンチマークとして、マルチノードDGX cuQuantum Applianceは、NVIDIA DGX SuperPODシステムのリファレンスアーキテクチャであるNVIDIA Seleneスーパーコンピュータ上で実行されています。2022年6月現在、SeleneはHPL（High Performance Linpack）ベンチマークを実行するスーパーコンピューティングシステムのTOP500リストで63.5ペタフロップスと8位、Green500リストで1ワットあたり24.0ギガフロップスと22位を獲得しています。」

「NVIDIA 社は、マルチノード DGX cuQuantum Appliance を活用したベンチマークを実施しました。NVIDIA 社は、マルチノード DGX cuQuantum Appliance を活用して、量子ボリューム、量子近似最適化アルゴリズム（QAOA）、量子位相推定などのベンチマークを実施しました。Quantum Volume 回路は、深さ 10 と 30 で実行されました。QAOAは、比較的、近い将来の量子コンピュータで組合せ最適化問題を解くために使用される一般的なアルゴリズムです。我々は、2つのパラメータで実行しました。」

「弱スケーリングと強スケーリングの両方が、先のアルゴリズムで実証されています。NVIDIA DGX SuperPODのようなスーパーコンピュータへのスケーリングは、解決までの時間を短縮し、研究者が状態ベクトル量子回路シミュレーション技術で探索できる位相空間を拡張する両方にとって貴重であることは明らかです。」

「私たちは、アップデートされたDGX cuQuantum Applianceによって、ユーザーがスケールを実現することをさらに可能にしています。マルチノード機能を導入することで、1つのGPUで32量子ビットを、1つのNVIDIA Ampere Architectureノードで36量子ビットを超えることができるようになりました。32台のDGX A100ノードで合計40量子ビットをシミュレートしています。今後、ユーザーはシステム構成に応じてさらにスケールアウトすることができ、ソフトウェア的には56量子ビットまたは数百万のDGX A100ノードを上限とすることができます。NVIDIA Hopper GPUを用いた他の予備テストでは、この数値は我々の次世代アーキテクチャではさらに向上することが示されています。」

「また、私たちは、マルチノード機能の強力なスケーリングも測定しました。ここでは、簡単のために量子ボリュームに焦点を当てました。図3は、同じ問題をGPUの数を変えながら複数回解いたときの性能です。最新のデュアルソケットサーバーCPUと比較すると、16台のDGX A100を利用した場合、320倍から340倍のスピードアップを達成しました。これは、従来の量子ボリュームの最先端実装（2台のDGX A100ノードで36量子ビットの深さ10）と比べても3.5倍の高速化です。さらにノードを追加すると、このスピードアップはより劇的なものとなります。」

とにかく性能がいいです。。。

「最大のNVIDIAシステムで量子回路のシミュレーションとスケールアップを実現」

「NVIDIAのcuQuantumチームは、状態ベクトル・シミュレーションをマルチノード、マルチGPUにスケールアップしています。これにより、エンドユーザは、これまでよりも大きな状態ベクトルに対して量子回路シミュレーションを行うことができます。cuQuantumはスケールだけでなく、パフォーマンスも可能にし、ノード間で弱いスケーリングと強いスケーリングを示しました。」

「さらに、cuQuantumは、cuQuantumを搭載した最初のIBM Qiskitイメージを発表しました。次のリリースでは、このコンテナを引き出すことができるようになり、この人気の高いフレームワークによる量子回路シミュレーションのスケールアップがより簡単に、より速く行えるようになります。」

「マルチノードDGX cuQuantum Applianceは現在プライベートベータ版ですが、NVIDIAは今後数ヶ月のうちに一般に公開する予定です。cuQuantumチームは、2023年春までにcuStateVecライブラリ内のマルチノードAPIをリリースする意向です。」

ぜひこの機会にcuQuantumを導入しましょう！

[和訳] NVIDIA DGX cuQuantum Applianceでスーパーコンピューティングスケールの量子回路シミュレーションを実現

Yuichiro Minato