画像内の物体テレポーテーションAI「AnyDoor」 アリババ含む研究者らが開発
https://www.techno-edge.net/article/2023/07/24/1634.html
「この研究は、「AnyDoor」と呼ばれる物体テレポーテーションを行う新しい技術を提案しています。この技術は、シーン画像内のターゲットオブジェクトを、正確で自然な配置で移動させ、周囲の背景と調和させる方法を使ったインペインティング手法です。
具体的に、この技術によって以下の3つのことが可能になります。(1)画像内の物体を指定した位置に移動させること。(2)画像内の複数の物体を入れ替えること。(3)画像に写っていない物体を追加して配置すること。この能力を応用する例としては、バーチャル試着などの実用的なアプリケーションが紹介されています。
従来の方法とは異なり、AnyDoorはゼロショットで高品質なID一貫性のある合成を生成することができます。これを達成するために、IDおよびディテールに関連する特徴でターゲットオブジェクトを表現し、それらを背景シーンと相互作用させて合成します。」
プロジェクトページ
https://damo-vilab.github.io/AnyDoor-Page/
「この研究では、AnyDoorという拡散ベースの画像生成器を紹介します。この生成器は、対象のオブジェクトをユーザー指定の場所に調和の取れた方法で新しいシーンにテレポートする能力を持っています。各オブジェクトごとにパラメータを調整するのではなく、当社のモデルは一度だけ訓練され、推論段階で多様なオブジェクト-シーンの組み合わせに容易に適用されます。このような難しいゼロショット設定では、特定のオブジェクトを適切に特徴づける必要があります。そのために、私たちは一般的に使用されるアイデンティティ特徴を補完し、テクスチャの詳細を保ちつつも多目的なローカルな変化(例:照明、方向、姿勢など)を許容するように慎重に設計された詳細特徴を導入しました。これにより、オブジェクトが異なる環境に有利に溶け込むのをサポートしています。さらに、ビデオデータセットから知識を借りる提案も行っており、ここでは単一のオブジェクトのさまざまな形態(つまり、時間軸に沿ったもの)を観察でき、モデルの一般化能力と堅牢性が向上します。豊富な実験結果は、当社のアプローチが既存の代替手法に対する優越性を示し、また仮想試着やオブジェクトの移動などの実世界の応用可能性も示しています。」
拡散ベースです!
AnyDoor: Zero-shot Object-level Image Customization
Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao
https://arxiv.org/abs/2307.09481
「図2. AnyDoorの全体的なパイプライン。このパイプラインは、ユーザー指定の場所にオブジェクトをテレポートするために設計されています。セグメンテーションモジュールを最初に採用して、オブジェクトから背景を除去し、次にIDエクストラクタを使用してそのアイデンティティ情報を取得します(セクション3.1)。次に、「クリーン」なオブジェクトにハイパスフィルタを適用し、生成された高周波マップ(HF-Map)を望ましい場所のシーンに縫い合わせ、詳細エクストラクタを使用してIDエクストラクタをテクスチャの詳細情報で補完します(セクション3.2)。最後に、IDトークンと詳細マップを事前に訓練された拡散モデルに注入し、最終的な合成を生成します。この合成では、ターゲットオブジェクトは周囲と有利に溶け込みつつ、適度なローカルな変化を持っています(セクション3.3)。炎と雪片は、学習可能なパラメータと固定パラメータを指します。」
全体としてはターゲットをセグメンテーションしてフィルターに通した画像を元画像に縫い合わせてそれをU-Netに入れるようです。
アイデンティティ特徴抽出
「対象のオブジェクトのアイデンティティ情報を抽出するために、事前訓練されたビジュアルエンコーダを活用しています。以前の研究では、CLIP [40] の画像エンコーダを使用して対象のオブジェクトを埋め込むことが多かったです。しかし、CLIPは粗い説明を持つテキスト-画像のペアで訓練されており、意味レベルの情報を埋め込むことはできますが、オブジェクトのアイデンティティを保持する識別的な表現を提供するのは難しいことがあります。この課題に対処するために、以下の更新を行いました。
背景の除去。対象の画像をIDエクストラクタに供給する前に、セグメンタータを使用して背景を除去し、オブジェクトを画像の中心に合わせます。セグメンターのモデルは自動的なもの [27, 39] または対話的なもの [11, 12, 32] のいずれかである可能性があります。この操作は、より整然で識別力のある特徴を抽出するのに役立つことが証明されています。」
今回はCLIPでは都合が悪いので、物体指定して対象画像を綺麗に切り取ります。
「この研究では、自己教師ありモデルがより識別的な特徴を保持する強力な能力を持つことを発見しました。大規模なデータセットで事前に訓練された自己教師ありモデルは、自然なインスタンス検索能力を備えており、オブジェクトを拡張不変な特徴空間に射影することができます。私たちは、現在最も強力な自己教師ありモデルであるDINO-V2 [37] をIDエクストラクタのバックボーンとして選びました。」
今回はDINO-v2を選んだようです。
詳細特徴の抽出
「IDトークンが空間分解能を失うため、対象オブジェクトの微細な詳細を適切に保持するのは難しいと考えます。したがって、詳細生成には補完的な追加のガイダンスが必要です。
コラージュ表現。[6, 45] からのインスピレーションを受けて、コラージュをコントロールとして使用することは、強力な事前知識を提供することができます。私たちは、「背景を除去したオブジェクト」をシーン画像の指定された場所に縫い合わせる試みを行いました。このコラージュを使用することで、生成の忠実度が大幅に向上することを観察しましたが、生成された結果は多様性が不足しており、与えられた対象とあまりにも類似しています。この問題に対処するために、コラージュがあまりにも多くの外観制約を与えないように情報ボトルネックを設定することを探求しました。具体的には、オブジェクトを表現するための高周波マップを設計しました。この高周波マップは微細な詳細を維持できるが、ジェスチャ、照明、方向などの多目的なローカルバリアントを許容します。」
どうやらそのまま画像として縫い合わせると元の結果に多様性が不足して単に貼り付けただけみたいになるようなので、高周波マップに変換して、様々な外的な環境にマッチするように縫い合わせることができるようです。
引用:https://arxiv.org/pdf/2307.09481.pdf
AttentionがDINO-v2、HF-Mapが高周波マップだそうです。
上記のようにAttentionとHF-Mapを取ったらそれをStable DiffusionのU-Netに入れるようでした。
「この研究では、テキスト埋め込みcの代わりに、私たちのIDトークンを使用し、これらはクロスアテンションを介して各UNetレイヤーに注入されます。詳細マップに関しては、それらを各解像度のUNetデコーダー特徴と連結します。トレーニング中、UNetエンコーダーの事前に訓練されたパラメータを凍結して事前知識を保持し、UNetデコーダーを調整して新しいタスクに適応させます。」
あとは、テキストトークンの代わりにIDトークンを入れるようです。
全体の構成はなんとなくわかりました。他にも色々トレーニングや画像の入れ方など工夫はあるようですが、今回はこの辺りにしたいと思います。