うちは今日も新しいモデルを見てみたいと思います。こちらに関しては特に日本語の解説記事がなかったのですが、1つ紹介記事があったのでそれを見てみたいと思います。
“ドラッグ&ドロップ”で画像内の物体を移動できるAI テンセント含む研究者ら「DragonDiffusion」開発
https://www.techno-edge.net/article/2023/07/10/1567.html
「この研究では点の移動による編集ではなく、より直感的な方法である、画像間のコンテンツをドラッグすることで編集可能なシステム「DragonDiffusion」を提案」
「DragonDiffusionでは、拡散過程で「誘導特徴量」と「生成特徴量」と呼ばれる2つの特徴量を使用しています。これらの中間特徴量の強い関連性により、編集結果と元画像の内容の一貫性を保ちながら編集が行えます。」
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
https://arxiv.org/abs/2307.02421
アブストラクトの翻訳です。
「既存の大規模なテキスト・トゥ・イメージ(T2I)拡散モデルは、詳細なテキスト記述から高品質な画像を生成する能力がありますが、生成された画像や実画像を正確に編集する能力にはしばしば欠けています。本論文では、拡散モデル上でドラッグスタイル操作を可能にする新しい画像編集方法、DragonDiffusionを提案します。具体的には、画像編集を事前訓練された拡散モデルにおける特徴対応の変更として扱います。特徴対応を活用することにより、編集ターゲットに合わせたエネルギー関数を開発し、画像編集操作を勾配ガイダンスに変換します。このガイダンスアプローチに基づき、意味的および幾何学的なアラインメントを考慮したマルチスケールガイダンスも構築します。さらに、編集結果と元の画像の一貫性を保証するために、メモリバンク設計に基づいた視覚的クロスアテンション戦略を組み込みます。これらの効率的な設計から、すべてのコンテンツ編集と一貫性操作は、追加のモデル微調整や追加モジュールなしで特徴対応から来ます。広範な実験により、当社の方法は単一画像内の編集(例えば、オブジェクトの移動、リサイズ、コンテンツのドラッグ)や画像間での編集(例えば、外観の置換やオブジェクトの貼り付け)など、さまざまな画像編集タスクにおいて有望なパフォーマンスを示すことが確認されました。」
概要面において結構重要な文章がありました。
「大規模なT2I拡散モデルでは、テキスト特徴と中間画像特徴の対応に加えて、画像特徴間にも強い対応が存在します。この特性は、DIFT(Tang et al. (2023))において研究され、この対応が高レベルであることが示されており、関連する画像コンテンツの点対点対応を可能にします。したがって、私たちは画像特徴間のこの強い対応を利用して画像編集を達成する可能性に興味を持ちました。本論文では、画像編集を特徴対応の変更として捉え、スコアベースの拡散(Song et al. (2020b))のエネルギー関数(Dhariwal & Nichol (2021))を介して勾配ガイダンスに変換します。さらに、編集結果と元の画像とのコンテンツの一貫性も、視覚的クロスアテンション設計における特徴対応によって保証されます。ここで、この問題を研究する同時進行中の作業、DragDiffusion(Shi et al. (2023))にも注目しています。それはLORA(Ryu (2023))を使用して元の画像との一貫性を維持し、特定の拡散ステップで潜在表現を最適化して点ドラッグを行います。DragDiffusionとは異なり、私たちの画像編集はエネルギー関数と視覚的クロスアテンション設計によって達成され、追加のモデル微調整や新しいブロックは必要ありません。さらに、点ドラッグを超えるさまざまなドラッグスタイルの画像編集タスクを完了することができます。」
コスト関数ベースの手法見合いで、DragDiffusionとはやはり異なるようです。
「この論文の貢献は以下の通りです:
- 事前訓練された拡散モデル内の画像特徴対応によって生成される勾配ガイダンスを通じて、ドラッグスタイルの画像編集を実現します。この設計では、異なる層の特徴の役割を研究し、意味的および幾何学的対応の両方を考慮したマルチスケールガイダンスを開発します。
- 画像特徴対応をさらに活用してメモリバンクを設計し、編集結果と元の画像との一貫性を維持します。勾配ガイダンスと組み合わせることで、拡散モデルのT2I生成能力を追加のモデル微調整や新しいブロックなしで画像編集タスクに直接転送することが可能になります。
- 広範な実験により、当社の方法は単一画像内の編集(例えば、オブジェクトの移動、リサイズ、コンテンツのドラッグ)や画像間での編集(例えば、外観の置換やオブジェクトの貼り付け)など、さまざまな画像編集タスクにおいて有望なパフォーマンスを示すことが確認されました。」
「DragonDiffusionの編集目的は、編集されるコンテンツを変更し、未編集のコンテンツを保持するという二つの問題を含んでいます。例えば、ユーザーが画像内のカップを動かしたい場合、生成された結果ではカップの位置のみを変更し、カップの外観やその他の未編集コンテンツは変更されるべきではありません。私たちの方法の概要は図1に示されており、これは事前訓練されたSD Rombach et al. (2022)に基づいて構築され、参照画像の有無にかかわらず画像編集をサポートしています。まず、DDIMインバージョン Song et al. (2020a)を使用して、元の画像を \( z_T \) に変換します。もし参照画像 \( z_{\text{ref}}^0 \) が存在する場合、それもインバージョンに関与します。このプロセスで、私たちは各時間ステップでいくつかの中間特徴と潜在表現を保存し、これらを使用してメモリバンクを構築します。これは、後続の画像編集のためのガイダンスを提供するために使用されます。生成中に、メモリバンクに保存された情報をコンテンツ編集と一貫性のガイダンスに変換します。これは、視覚的クロスアテンションと勾配ガイダンスの二つのパスを通じて行われます。これらのパスは両方とも、事前訓練されたSD内の特徴対応に基づいて構築されます。したがって、私たちの画像編集パイプラインは、追加のモデル微調整や新しいブロックなしで効率的に構築されています。」
編集箇所をメモリーバンクに蓄えた上で、その後の生成プロセスに活かすようです。また、編集過程はエネルギー関数とイメージクロスアッテンションによって成り立っているというので、これまでのモデルとだいぶ違う可能性があります。
かなりたくさんの論文を読まないと読み解けない気がするので、時間をかけてこの分野はやっていこうと思います。全部は今回は紹介できないので以上です。