TeCHを調べる

写真1枚から着衣3D人体モデルを高精度に生成する技術「TeCH」

https://www.techno-edge.net/article/2023/08/21/1773.html#TeCH

「TeCHは、1枚の全身写真からアニメーション可能な高精度の3D着衣人体モデルを生成する手法です。特に、人体の見えない部分（背面など）の再構築に成功し、これまでのぼやけた表現や矛盾を解消しました。

具体的には、入力画像の意味情報を2つに分割し、衣服や外見の特徴を捉えます。1つ目の意味情報は、衣服のスタイルや顔の特徴などをテキストとして解釈します。もう1つは、テキスト化できない細かい外見や特徴を「DreamBooth」で解釈します。

これら2つの意味情報を元に、ジオメトリとテクスチャの最適化を行います。さらに、低解像度3Dモデルから高解像度3Dモデルを合成する「DMTet」に基づくハイブリッド3D表現も提案し、忠実度の高い仕上がりでありながらコストを抑えたシステムを構築しています。」

論文

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies

https://arxiv.org/abs/2308.08545

「図1. 単一の画像を与えると、TeCHはリアルな3Dの服を着た人物を再構築します。"リアル"とは、1) 正面および見えない領域の詳細な全身のジオメトリ、顔の特徴、衣服のしわを含むものであり、2) 一貫した色と入念な模様を備えた高品質のテクスチャを指します。鍵となる洞察は、個人用のテキストからイメージへの拡散モデルと、ビジュアルクエスチョンアンサリング（VQA）によって導出されたテキスト情報を使用して再構築をガイドすることです。マルチビューの監督は、スコア蒸留サンプリング（SDS）を介して確立されます。」

「図2. メソッドの概要。TeCHは、人間の画像Iを入力とします。テキストのガイダンスは、

(a) ガーメントパーシングモデル（SegFormer）とVQAモデル（BLIP）を使用して、事前定義された問題Qで人間の属性Aを解析し、

(b) 主題固有の外観をDreamBooth D'に埋め込むことで構築されます [V]。次に、TeCHは3Dの服を着た人物を表現し、

(c) SMPL-Xで初期化されたハイブリッドDMTetを使用し、プロンプトP = [V] + PVQA(A)によってガイドされたLSDSを使用してジオメトリとテクスチャの両方を最適化します。最適化中に、Lreconは入力ビューの一貫性を確保するために導入され、LCDは異なるビュー間での色の一貫性を強制し、Lnormalは表面の正規化を行います。最後に、抽出された高品質なテクスチャ付きメッシュ(d)は、さまざまな下流アプリケーションで使用する準備ができています。」

意外とこれまで勉強会ではなかったモデルでした。テキスト情報とDreamBoothによるパーソナライズを組み合わせて全体的にDMTetモデルで、3D高解像度ポリゴンを作るという手法でした。全体的な流れはこれまでの3Dモデルの作りと似ているところもありながら、着衣の人物モデルに特化した形で高性能なモデルが作れそうないいモデルでした。

TeCHを調べる

Yuichiro Minato