Neuralangeloを調べる

映像から3Dシーンを生成できるVideo-to-3Dモデル「Neuralangelo」のコードが公開

https://www.techno-edge.net/article/2023/08/21/1773.html#CoDeF

「2023年6月にNVIDIAなどの研究者らによって公開された論文「Neuralangelo」のコードが公開されました。Neuralangeloは、異なる視点から撮影された2D映像から、映像に映る建物や物体、風景といった実世界のシーンを3Dに変換するVideo-to-3Dモデルです。

この技術の登場は、1年前にNVIDIAが発表した「Instant NeRF」という先進的な技術に続くものです。Instant NeRFは2Dビデオから鮮明な3Dシーンを迅速に作り出せる能力を有していましたが、生成された3Dモデルには詳細な構造が欠けるなどのアーティファクトがありました。

Neuralangeloは、Instant NeRFのこれらの課題を克服する改良が施されています。これによって、深度や他の補助入力を必要とせず、多視点画像から微細な3D表面構造を効果的に復元することが可能になりました。また、RGBビデオキャプチャからの大規模シーン再構築も可能になりました。」

プロジェクトページ

https://research.nvidia.com/labs/dir/neuralangelo/

論文

Neuralangelo: High-Fidelity Neural Surface Reconstruction

Zhaoshuo Li, Thomas Müller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin

https://arxiv.org/abs/2306.03092

github

https://github.com/nvlabs/neuralangelo

「ニューラルサーフェス再構築は、画像ベースのニューラルレンダリングを介して密な3Dサーフェスを回復するために強力であることが示されています。ただし、現在の方法は実世界のシーンの詳細な構造を回復するのに苦労しています。この問題に対処するために、私たちはNeuralangeloを提案します。これは、多重解像度3Dハッシュグリッドの表現能力とニューラルサーフェスレンダリングを組み合わせたものです。私たちのアプローチを可能にする2つの主要な要素があります：（1）数値勾配を使用して高次の導関数を計算することで滑らか化操作を行い、（2）異なる詳細レベルを制御するハッシュグリッド上での粗視化から微調整を行います。深度などの補助的な入力がなくても、Neuralangeloはマルチビュー画像から密な3Dサーフェス構造を効果的に回復し、以前の方法を大幅に上回る忠実度で、RGBビデオキャプチャから詳細な大規模シーン再構築を可能にします。」

図1. 私たちは、セグメンテーションや深度などの補助データなしに、RGB画像からの高精度な3Dサーフェス再構築を行うNeuralangeloというフレームワークを提供します。図には、裁判所の3Dメッシュが抽出されています。

アプローチ

「Neuralangeloは、マルチビュー画像からシーンの密な構造を再構築します。Neuralangeloは、カメラの視点方向に沿った3D位置をサンプリングし、多重解像度のハッシュエンコーディングを使用して位置をエンコードします。エンコードされた特徴は、SDF MLP（Signed Distance Function マルチレイヤーパーセプトロン）とカラー MLP に入力され、SDFベースのボリュームレンダリングを使用して画像を合成します。」

事前知識

NeRF

NeRFにはこれまでいくつか記事を出したので省略します。

SDFのボリュームレンダリング

最も一般的な表面表現の1つはSDF（Signed Distance Function、符号付き距離関数）です。SDFの表面Sは、そのゼロレベルセットによって暗黙的に表現されます。すなわち、S = {x ∈ R^3 | f(x) = 0}、ここでf(x)はSDFの値です。ニューラルSDFの文脈では、Wangら[41]は、NeRFのボリューム密度予測をニューラルボリュームレンダリングで最適化できるように、SDF表現に変換することを提案し、ロジスティック関数を使用しました。

多重解像度のハッシュエンコーディング

最近、Müllerらによって提案された多重解像度のハッシュエンコーディング[26]は、ニューラルシーン表現のための大規模性能を示し、新しいビューシンセシスなどのタスクに対して細かい詳細を生成します。Neuralangeloでは、ハッシュエンコーディングの表現力を採用して高忠実度のサーフェスを回復します。

ハッシュエンコーディングは、各グリッドセルの角がハッシュエントリにマップされる多重解像度のグリッドを使用します。各ハッシュエントリはエンコーディング特徴を保存します。{V1、...、VL}が異なる空間グリッドの解像度セットであるとしましょう。入力位置xiが与えられた場合、それを各グリッド解像度Vlに対応する位置xi,l = xi·Vlにマップします。与えられた解像度Vlにおける特徴ベクトルγl(xi,l) ∈ Rcは、グリッドセルの角のハッシュエントリを三線形補間で取得します。すべての空間解像度でエンコーディングされた特徴は、連結されてγ(xi) ∈ RcL特徴ベクトルを形成します。

エンコードされた特徴は、浅いMLPに渡されます。ハッシュエンコーディングの代替案の1つは、スパースなボクセル構造[34, 37, 44, 49]であり、各グリッドの角は衝突せずに一意に定義されます。ただし、ボリューメトリックな特徴グリッドは、パラメータ数を取り扱い可能にするために階層的な空間分解（たとえば、オクツリー）が必要であり、それ以外の場合、メモリは空間解像度と立方体で成長します。このような階層がある場合、設計上、より細かいボクセル解像度は、粗い解像度で誤って表現されたサーフェスを回復できません[37]。ハッシュエンコーディングは、空間的な階層を仮定せず、勾配平均に基づいて衝突を自動的に解決します。

自然勾配：

図2. 数値勾配を使用して高次の導関数を計算すると、バックプロパゲーションの更新がローカルなハッシュグリッドセルを超えて分布し、解析的な勾配の滑らかなバージョンになります。

詳細度の段階的な進化

「粗いものから細かいものへの最適化は、偽の局所最小値に陥るのを避けるために、損失のランドスケープをより良く形作ることができます。このような戦略は、画像ベースの登録など、コンピュータビジョンの多くのアプリケーションで見られます[19, 23, 29]。Neuralangeloもまた、逐次的な詳細度の段階的なレベルでサーフェスを再構築するために、粗いものから細かいものへの最適化スキームを採用しています。高次の導関数に対して数値勾配を使用することは、Neuralangeloに2つの観点から粗いものから細かいものへの最適化を自然に行わせることを可能にします。」

最適化

「さらに、再構築されたサーフェスの滑らかさを促進するために、SDFの平均曲率を正則化することによる事前条件を課します。平均曲率は、表面法線の計算と同様に、離散ラプラシアンから計算されます。それ以外の場合、三重線形補間を使用する場合、ハッシュエンコーディングの解析的な2次勾配はどこでもゼロです。」

いくつかの工夫を通じてクオリティの高い画像を出しているようでした。

Neuralangeloを調べる

Yuichiro Minato