博報堂ＤＹホールディングス/blueqat、テンソルネットワーク技術を用いてNeRFモデルの圧縮を実証。SQAI-NCTS 国際ワークショップにて発表。

研究概要

このたび、株式会社博報堂ＤＹホールディングスとblueqat株式会社は、テンソルネットワーク技術を用いたNeRFモデルの圧縮を実証しました。また、研究成果をサスティナブル量子AI研究拠点と台湾のNCTS Physicsによるテンソルネットワークに関する国際ワークショップにおいてポスター発表を行いました。

Neural Radiance Field（NeRF）は、対象の画像から自由視点画像を生成することができる3D再構成技術です。NeRFモデルは、画像によって訓練されたニューラルネットワークを用いて、3次元座標と視点方向を色と密度にマップする連続関数として自由視点画像を表現します。今回の実証研究では、標準的なNeRFアーキテクチャのMLPレイヤーをMatrix Product Operators（MPO）で置き換えることによるNeRFのモデル圧縮の可能性の検討を行いました。テンソル化されたNeRFモデルでの実証実験では、通常のNeRFモデルと同等の性能を保ちつつモデルサイズを効率的に削減できることが示され、NeRFモデルにテンソルネットワークを適用する有用性が認められました。

テンソルネットワーク

テンソルネットワーク [1] は、古典コンピュータ上で量子多体系を効率的にシミュレーションするために用いられてきました。量子系の状態はヒルベルト空間内のベクトルとして表現され、その次元が指数関数的に大きいため、古典コンピュータ上で計算を行うには膨大な計算リソースが必要となります。テンソルネットワークは、これらの量子状態を複数の低ランクテンソルに分解し、近似的な計算を効率的に行うことを可能にします。

機械学習の分野においても、モデルの規模が拡大するにつれて計算リソースが増大します。最近では、Transformer [2] に基づくモデルが大きな成功を収めていますが、高性能GPUへの依存とそれに伴うエネルギー消費は、持続可能性の観点から重要な課題となっています。さらに、厳格な応答時間やセキュリティ基準が必要なアプリケーションでは、クラウド上のリソースなしでタスクをローカルで実行できる能力が重要となります。このような課題に対処するために、さまざまなモデル圧縮技術が導入されています。

こうした課題に対し、テンソルネットワークの持つ高次元空間から効果的に特徴を抽出する能力が機械学習の領域で注目されています。ニューラルネットワーク内の大量の重みパラメータにテンソル分解技術を適用することで、特徴を効率的に抽出し、パラメータの数を削減することが可能です。ある研究では、大規模言語モデル（LLM）にTensor-Train（MPO）分解 [3] を適用することで、元の精度の90%を維持しながらモデルサイズを30%削減することに成功しています [4]。以下の図1は、全結合層をTensor-Train（MPO）層に置き換える様子を示しています。今回の我々の実証実験では、このMPO分解を用いて検証を行いました。

図1. MLP層をTensor-Train(MPO)層に置き換えている様子（この図では4ノードでの様子を示している。）

Neural Radiance Field（NeRF）

Neural Radiance Field（NeRF）は、図2の様に3次元座標と視線方向を色と密度にマップする、よく知られた3D表現手法です。あるNeRFモデルが与えられた場合、光線の累積色は古典的なボリュームレンダリングを使用して計算されます。

この連続関数は、通常、ニューラルネットワーク[5]や、軽量なMLPとボクセルグリッド、ハッシュベース符号化、分解された低ランク行列などの他の技術のハイブリッドとして実装されます[6,7,8]。私たちの研究では、通常のNeRFアーキテクチャの全結合層をテンソルネットワークで置き換えることによって、NeRFを圧縮する可能性を検証しました。

図2. NeRFによる画像生成とレンダリング手法の概略図 [5]

実験結果

今回の実証実験では、以下のような条件で実施されました。

「Fern」[5]と「Greek」[9]の2つのデータセットを用いて、テンソル化されたNeRFと通常のNeRF。（図3）
1層の全結合層のテンソル化
重み行列を2ノードのMPO表現に分解

結果として

同等の生成精度において13.7%のパラメータ圧縮が可能（表1）
結合次元2を用いると、0-5%の加速化が可能

ということが実証されました。

図3. 通常のNeRFモデルによる新規視点画像（左）とテンソル化されたNeRFモデルによる新規視点画像（右）

表1. パラメータ数と自由視点画像クオリティー

今後の展望

今回の実証では、ニューラルネットワーク層をテンソルネットワークで置き換えることによるモデル圧縮の応用事例を示しました。具体的には、広く使用されている3D表現モデルであるNeRF内のMLPにTensor-Train（MPO）分解を適用し、レンダリング品質を維持しながらパラメータを削減することに成功しました。パラメータ削減と画像品質の間には一定のトレードオフがあるため、今後、さらなる圧縮の可能性を探究し、この問題を解決したいと考えています。また、その他の3D表現やアーキテクチャへの応用もさらなる研究として考えています。

引用文献

[1] Schollwöck, Ulrich. Annals of physics 326.1 (2011): 96-192.

[2] Vaswani, Ashish, et al. Advances in neural information processing systems 30 (2017).

[3] Novikov, Alexander, et al. Advances in neural information processing systems 28 (2015).

[4] Tomut, Andrei, et al. arXiv preprint arXiv:2401.14109 (2024).

[5] Mildenhall, Ben, et al. Communications of the ACM 65.1 (2021): 99-106.

[6] Fridovich-Keil, Sara, et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[7] Müller, Thomas, et al. ACM transactions on graphics (TOG) 41.4 (2022).

[8] Chen, Anpei, et al. European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

[9] Sitzmann, Vincent, et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.