Magic123：画像1枚から3Dモデルを作るの巷解説を探す

PanoHeadの勉強会を以前行って、正面の顔だけで360度作れてました。

今回は画像から3Dモデルを作る技術です。

記事を探しましたが多少ありましたら、わかりやすいものはあまりありませんでした。

元の紹介記事は、

写真1枚から高解像度の3Dモデルを生成するAI「Magic123」　米Snap含む研究者らが開発

https://www.techno-edge.net/article/2023/07/10/1567.html

「「Magic123」というImage-to-3Dフレームワークを提案したこの論文では、1枚の写真を入力として使用し、写真に含まれる被写体の3Dモデルを生成する手法を紹介しています。Magic123は、ポーズなしの画像から、詳細な3Dジオメトリと高いレンダリング解像度（1024×1024）を持つ忠実な3Dコンテンツを再構成することができます。」

ということでプロジェクトページを見ます。

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

https://guochengqian.github.io/project/magic123/

アブストラクトの翻訳です。

「「Magic123」は、単一のポーズされていない野生の画像から高品質なテクスチャ付き3Dメッシュを生成するための、粗大から細かいへの2段階の解決策です。この解決策では、2Dおよび3Dの事前知識を用いています。第1段階では、粗い幾何学を生成するためにニューラル放射場を最適化します。第2段階では、視覚的に魅力的なテクスチャを備えた高解像度メッシュを得るために、メモリ効率の良い微分可能なメッシュ表現を採用します。どちらの段階でも、3Dコンテンツは参照ビューの監督と、2Dおよび3Dの拡散事前知識に導かれた新しいビューを通じて学習されます。生成されるジオメトリーの探索（より想像力豊かな）と活用（より精密な）の間のトレードオフを制御するために、2Dと3Dの事前知識の間の単一のトレードオフパラメーターを導入します。さらに、ビュー間の一貫した外観を奨励し、退化した解決策を防ぐために、テキスト反転と単眼深度正則化を採用します。Magic123は、合成ベンチマークと多様な実世界の画像に関する広範な実験を通じて、以前の画像から3Dへの技術よりも顕著な改善を示します。」

プロジェクトページにパイプラインが載っていました。

Magic123パイプライン。Magic123は、基準画像から高品質の3D生成のための粗大から細かいへの2段階フレームワークです。Magic123は、基準画像によって導かれ、画像からの単眼深度推定によって制約され、新しいビューを思い描くための2Dおよび3Dの拡散事前知識によって推進されます。粗い段階では、粗い幾何学を再構築するためにInstant-NGPニューラル放射場（NeRF）を最適化します。細かい段階では、NeRFの出力からDMTetメッシュを初期化し、直接高解像度のメッシュとテクスチャを最適化します。テクスチャ反転は、オブジェクトを保持する幾何学とビュー一貫性のあるテクスチャを生成するために、両段階で使用されます。

画像を入れて、NeRFからDMTetというモデルに渡しているようです。

Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis

https://research.nvidia.com/labs/toronto-ai/DMTet/

DMTetは低解像度の3Dから高解像度にするようなモデルのようです。

全体的にはinputのイメージが高画質で、他の視点の画像を作りながらNeRFでざっくり作りながら、DMTetに渡して高品質3Dモデルへ入れているようでした。どちらにも元のinput imageが固定ビューとして学習に使われているようでした。

Magic123：画像1枚から3Dモデルを作るの巷解説を探す

Yuichiro Minato