量子コンピュータでディープラーニング高速化の論文を見てみる

こちらです。

Towards provably efficient quantum algorithms for large-scale machine-learning models

Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yunfei Wang, Yuri Alexeev, Jens Eisert, Liang Jiang

翻訳すると

「大規模な機械学習モデルに対する証明可能な効率的な量子アルゴリズムに向けて」

まさに我々が欲しいものです。

アブストラクトです。

「大規模な機械学習モデルは、膨大な計算コスト、電力、および事前学習と微調整プロセスの両方における時間の使用というボトルネックを持つ人工知能の革命的な技術です。本研究では、フォールトトレラント量子コンピューティングが、\(O(T^2 \times \text{polylog}(n))\) とスケーリングする一般的な（確率的）勾配降下アルゴリズムに対して、証明可能な効率的解決策を提供可能であることを示しています。ここで、\(n\)はモデルのサイズ、\(T\)はトレーニングの反復回数です。これは、モデルが十分に散逸的でスパースであり、かつ小さな学習率である限りです。以前の散逸系微分方程式に対する効率的な量子アルゴリズムに基づき、我々は同様のアルゴリズムが機械学習の主要なアルゴリズムである（確率的）勾配降下に対しても機能することを見出し、証明しました。実際には、700万から1億300万パラメータに及ぶ大規模な機械学習モデルのインスタンスをベンチマークしました。我々は、スパーストレーニングの文脈で、モデルのプルーニング後の学習初期段階で量子増強が可能であることを発見し、スパースパラメータのダウンロードおよび再アップロードのスキームを促進しました。我々の研究は、フォールトトレラント量子アルゴリズムが最先端の大規模な機械学習問題のほとんどに対して実質的に貢献可能であることを確固たるものとして示しています。」

全体概要です。

引用：https://arxiv.org/pdf/2303.03428.pdf

「図1. 大規模モデルにおける可能な学習プロセスであり、その学習の初期段階ではスパーストレーニングを利用し、量子増強が可能であるかもしれません。密なニューラルネットワークは古典的に事前学習されます。その後、ニューラルネットワークの重みが剪定され、ごく少数が保存されます。スパースネットワークとトレーニングデータを使用して、スパーストレーニングのダイナミクスに対応する量子常微分方程式システムが作成されます。量子増強を可能にするために、システムはスパースでかつ散逸性を持つ必要があります。解の状態の測定が行われ、最終的な訓練済みパラメータを得るために実施され、訓練済みの古典的スパースニューラルネットワークを構築するために使用されます。」

ということで、手順としては密なのは古典で行い、枝刈りしたスパースな行列を古典で計算するというものです。個人的にはいいと思います。

「本研究では、現在の機械学習コミュニティにタイムリーであり、ある程度の保証を持つエンドツーエンドの量子機械学習アルゴリズムを設計することによって、この方向への重要な一歩を踏み出しています。典型的な大規模（古典的）機械学習プロセス（図1を参照）に基づき、多数のニューラルネットワークトレーニングパラメータが剪定（スパーストレーニング）された後[26–29]、古典的トレーニングパラメータが量子コンピュータにコンパイルされると、誤差が指数関数的に増大する前の訓練初期段階で量子増強を見出すことを提案します。この研究の核となる量子アルゴリズム部分には、微分方程式を解くための量子アルゴリズム[30]を適切に変更し、線形化後に量子プロセッサで実行する（確率的）勾配降下アルゴリズム—おそらくは主要な古典的機械学習アルゴリズム—への適用が含まれます。可能な量子増強の期待は、いわゆるHarrow-Hassidim-Lloyd（HHL）アルゴリズム[31]のバリアントの適用に根ざしています。これは、適切な条件のn×nスパース行列に対してO(log n)時間で問題を解決する効率的な量子アルゴリズムです。私たちのアルゴリズムは、Tがイテレーション数であるときに、O(polylog(n) × T)またはO(polylog(n) × T^2)の時間で、大規模なモデル次元nの機械学習問題を解決することができるとわかりました。nにおけるスケーリングは、我々が知る限りのどんな古典的アルゴリズムのスケーリングよりも優れています。ただし、所望のパフォーマンスを持つ特定の機械学習問題に対して、我々のハイブリッド量子-古典アルゴリズムが必ずしもすべての考えられる古典的アルゴリズム（例えば、勾配ベースでないアルゴリズム）を上回るとは限りません。したがって、我々の結果は、問題クラス全体に対する量子アドバンテージではなく、特定の古典的アルゴリズムの顕著な量子スピードアップまたは増強の可能性を示しています。」

ということで、限定的ですが、HHLなどを利用して可能ではないかという計算です。

「量子アルゴリズムの観点から、確率的勾配降下プロセスは、参照文献[30]の発見に基づいて、いわゆる量子カールマン線形化を使用して非線形方程式を線形化することにより導かれた量子常微分方程式（ODE）ソルバーを用いて解決されています。私たちは、対応する微分方程式ソルバーが原理的には離散設定および機械学習における確率的勾配降下にも使用できることを見出しました。ただし、離散設定では、小さい学習率の限界で適用される理論的詳細とは大きく異なります。この研究では、補足資料において新しい離散カールマン線形化を体系的に確立し、カールマン線形化理論の再定式化、離散化誤差のテンソルネットワーク図式表記、高次補正の解析的導出、および低次展開のための具体例を含んでいます。参照文献[30]の発見を超える我々のアルゴリズムの新規性についての詳細は、補足資料で要約されています。」

「上記のアルゴリズムには量子増強を許容するいくつかの要件があることを強調することが重要です。まず、機械学習モデルと重みベクトルは十分にスパースである必要があり、これにより古典的なプロセッサと量子プロセッサ間の高速なインターフェースが保証されます（この要件は、量子ランダムアクセスメモリ（QRAM）[32]の存在、つまり量子データへの高速アップローダーがある場合には緩和されるかもしれませんが、我々のスキームに隠されたリソースはないことを強調します）。次に、モデルは十分に散逸性を持っている必要があります。散逸系では、線形化誤差がよく制御されており、非線形機械学習モデルであってもHHLアルゴリズムが信頼性の高い結果を得られることを保証します。我々は、大規模機械学習の初期トレーニングプロセスで一般的に散逸が発生することを見出しました。

ここで開発された直感を、いくつかの定理および広範な数値実験によって裏付けます。散逸、スパース性、および量子スピードアップの形式的な定義は補足資料で厳密に証明されています。主な定理の非公式な読み取りはセクションIで提示され、最大1億300万のトレーニングパラメータにまで及ぶ確かな数値的証拠がセクションIIIで提供されます。最後に、セクションIVで結論と展望が提供されます。」

ということで、現在世界中で様々な取り組みが期待されていますが、まさかの大規模機械学習モデルで量子古典のハイブリッドの優位性の論文でした。HHLを使うのが候補ということなので、ある程度スパース性が必要ですが、こういう事例があると量子機械学習にも勢いがついて現場も盛り上がりそうです。

以上です。

量子コンピュータでディープラーニング高速化の論文を見てみる

Yuichiro Minato