顔の正面写真1枚から後頭部を含む360度の3D頭部モデルを生成するAI「PanoHead」 ByteDanceなど開発
https://www.techno-edge.net/article/2023/07/03/1534.html#panohead
「真正面の顔写真1枚から、見えない後頭部を含めた360度の3D頭部モデルを再構築するフレームワーク「PanoHead」を提案する研究です。これまで複数の入力画像から頭部全体を再構成するアプローチは多くありました。また1枚の顔写真から3Dに変換するアプローチもありましたが、正面近くの視点での合成に限られていました。
今回は、これらの課題を解決し、正面の顔写真1枚から詳細なジオメトリを使用して一貫した高忠実度のフルヘッド3D画像を生成します。提案フレームワークは、GAN(Generative Adversarial Network)を使用して学習されており、前頭部と後頭部の特徴を分離する表現や、不完全なカメラポーズと位置ずれのある画像に適応的に対応する、新しい2段階画像位置合わせスキームなどで構成されています。」
論文はこちらです。
PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360∘
Sizhe An, Hongyi Xu, Yichun Shi, Guoxian Song, Umit Ogras, Linjie Luo
https://arxiv.org/abs/2303.13071
アブストラクトです。
「最近、コンピュータビジョンとコンピュータグラフィックスの分野で、3D人間の頭部の合成と再構築に対する関心が高まっています。既存の最先端の3D生成対抗ネットワーク(GANs)は、3D人間の頭部合成において、近接正面のビューに制限されているか、大きな視点角で3Dの一貫性を保持するのが難しいとされています。私たちは、PanoHeadという、訓練に野外の非構造化画像のみを使用して、360°でフルヘッドのビュー一貫性の高い画像合成を可能にする初の3D認識型生成モデルを提案します。このモデルの中心には、最近の3D GANsの表現力を向上させ、広く分布したビューを持つ野外の画像から訓練を行う際のデータ整列のギャップを埋めることがあります。具体的には、堅牢な3D GAN訓練のための新しい2段階の自己適応型画像整列を提案します。さらに、広く採用されている三平面形式に根差す正面顔と後頭部の特徴の絡み合いに効果的に対処する三格子ニューラルボリューム表現を導入します。私たちの手法は、3Dニューラルシーン構造の対抗学習に2D画像セグメンテーションの事前知識を注入し、多様な背景でヘッドの合成を可能にします。これらの設計の恩恵を受けて、私たちの手法は以前の3D GANsを大幅に上回り、正確なジオメトリと多様な外観を持つ高品質の3Dヘッドを生成し、長いウェービーな髪型やアフロの髪型を持つ場合でも、任意のポーズからレンダリングできます。さらに、単一の入力画像から個人用のリアルな3Dアバターを再構築できることを示しています。」
まずは類似研究から
「3Dヘッドの表現とレンダリング。多様な形状と外観を持つ3Dヘッドを表現するために、パラメトリックなテクスチャメッシュ表現を対象とした研究が行われており、例として顔の3Dモーファブルモデル(3DMM)[2-4、33]や、3Dスキャンから学習されるFLAMEヘッドモデル[25]があります。しかし、これらのパラメトリックな表現は、正面顔や頭蓋骨の先の写実的な外観とジオメトリをモデル化していません。最近では、ニューラル暗黙の関数[47]が3Dシーンの連続的かつ微分可能な表現として注目されています。その中でも、Neural Radiance Field(NeRF)[1、28]は、複雑なシーンの詳細をモデル化し、継承された3Dの一貫性を持つマルチビュー画像を合成する優れた能力から、デジタルヘッドモデリング[10,15,17,32,34,43]で広く採用されています。マルチビュー画像や時間的なビデオから個々の人に特化したニューラルラディアンスフィールドを最適化するのとは対照的に、私たちのアプローチは非構造化の2D単眼画像から生成的なNeRFを構築します。最近では、効率を向上させるために暗黙と明示のハイブリッド3D表現が探索されています[5, 9, 27]。その中で、EG3D [5]で提案された三平面形式は、高品質のビュー一貫性のある画像合成とともに非常に効率的な3Dシーン表現を示しています。三平面表現は、解像度を効率的にスケーリングでき、同じキャパシティでより詳細な情報を提供します。私たちの三格子表現は、三平面表現をより表現力豊かな空間に変換し、無条件の3Dヘッド合成により良い特徴の埋め込みを実現します。」
今回のPanoHeadはどうやらNeRFのようです。
「シングルまたは少数のビューを使用した教師付き3D GANs。2D画像生成におけるGANsの印象的な進歩[12、19、21、22]を考慮すると、多くの研究がこれを3D認識に拡張しようと試みています。これらのGANsは、2D画像コレクションから汎用的な3D表現を学び取ることを目指しています。顔の合成に関して、Szaboら[42]は、テクスチャメッシュの出力を生成するための3D表現として頂点位置マップの使用を最初に提案しました。Shiら[39]は、2D StyleGANs[21]を3D生成モデルに変換するためのセルフスーパーバイズドフレームワークを提案しましたが、その汎用性は基本的な2D StyleGANに制約されています。GRAF [37] とpi-GAN [6]は、NeRFを3D GANsに統合した最初のものです。ただし、完全なNeRFの順方向および逆方向の計算コストが高く、そのパフォーマンスは制約されています。多くの最近の研究[5,8,11,13,29-31,38,40,48,49]は、このようなNeRFベースのGANsの効率と品質を向上させようと試みています。具体的には、私たちの研究の基盤となったEG3D [5]は、2D GANバックボーンを活用して効率的な3D表現を生成することができる三平面表現を導入し、他の3D表現を上回ることが示されています。これらの研究と並行して、別のスレッドの研究[30,41,46,50]では、生成された3D顔や体を操作できる制御可能な3D GANsに取り組んでいます。」
手法
PanoHeadの概要
「リアルな視点一貫性のあるフルヘッド画像を合成するために、私たちは効率と合成品質に優れた最新の3D認識型GANであるEG3D [5]をベースにPanoHeadを構築しています。具体的には、EG3DはStyleGAN2 [22]のバックボーンを活用して、3つの2D特徴平面で3Dシーンを表す三平面表現を出力します。所望のカメラポーズ ccam が与えられると、MLPネットワークを使用して三平面がデコードされ、特徴画像にボリュームレンダリングされ、それに続いて高解像度のRGB画像 I+ を合成するための超解像度モジュールが適用されます。低解像度と高解像度の両方の画像は、デュアルディスクリミネータDによって共同で最適化されます。」
ここでも出ました、StyleGAN2。結構根強い人気があります。ここでは、EG3Dというモデルが使われているようです。EG3Dのページを見つけました。
EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks
https://nvlabs.github.io/eg3d/
Efficient Geometry-aware 3D Generative Adversarial Networks Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, Gordon Wetzstein
https://arxiv.org/abs/2112.07945
EG3Dを見ましたが、なんか全面の顔のモデルが綺麗にできていました。
「EG3Dが正面向きの顔を生成するという成功にもかかわらず、以下の理由から、野外での360度のフルヘッド画像への適応ははるかに難しい課題であることがわかりました:
-
前景と背景の絡み合いが大きな姿勢のレンダリングを妨げており、
-
三平面表現からの強い帰納バイアスが後頭部に顔の鏡像アーティファクトを引き起こしている、
-
カメララベルのノイズと後頭部画像の不一致なクロッピング。これらの問題に対処するために、前景と背景を切り離すための背景ジェネレータと三重ディスクリミネータを導入します、効率的でありながらもスタイルGANバックボーンと互換性があるより表現力豊かな三格子表現、そしてトレーニング中にレンダリングカメラを動的に調整する自己適応モジュールを備えた2段階の画像整列スキームを導入します。」
引用:https://arxiv.org/pdf/2303.13071.pdf
結構その後も長い解説が続いていました。結構手法が入り組んでいましたので細かい解説は省略しようと思います。
3Dモデリングは今いろんなモデルが出始めているので、少し様子見のために色々見ようと思います。