既存の画像生成AIを強化する「LLM-grounded Diffusion」 複数回の対話での生成、多言語生成が可能に
https://www.techno-edge.net/article/2023/07/31/1671.html
「Stable Diffusionのような従来の拡散モデルは、空間的な推論や常識的な推論が必要なプロンプトに対して正確に従うことが難しいことがあります。しかし、LLM-grounded Diffusion (LMD) という新しいアプローチは、複雑な空間的推論や常識的推論を必要とするプロンプトから高品質な画像を生成することができます。
この手法は、テキストからレイアウトへの生成と、それに続くレイアウトから画像への生成の2段階プロセスで構成されます。第一段階では、LLMをコンテキスト内学習によってテキストガイド付きレイアウト生成器に適応させます。
第二段階では、第一段階で生成されたレイアウトを条件として、新しいレイアウト条件付き画像生成法を提案します。これらのことにより、指定された領域におけるオブジェクトインスタンスに対する精密な制御が可能になります。
この手法は市販のLLMや拡散モデルに適用できます。LMDを用いた拡散モデルは、ベースとなる拡散モデルよりも、プロンプトに従う推論を必要とするタスクで優れた性能を示しています。」
github
https://github.com/TonyLianLong/LLM-groundedDiffusion
プロジェクトページ
https://llm-grounded-diffusion.github.io/
論文
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models
Long Lian, Boyi Li, Adam Yala, Trevor Darrell
https://arxiv.org/abs/2305.13655
「テキストから画像への生成の分野は、特に拡散モデルの出現に伴い、顕著な進歩を遂げています。これらのモデルは、テキストプロンプトに応じて現実的で多様な画像を生成するという印象的な能力を示しています。しかし、印象的な結果にもかかわらず、拡散モデルは特定の理解能力を必要とする複雑なプロンプトに正確に従うことにしばしば苦戦します。図1では、Stable Diffusion(Rombach et al., 2022)がプロンプトで指定された特定の数のオブジェクトを生成したり、否定を理解したりすることができないことが示されています。また、空間的推論やオブジェクトに正しく属性を関連付けることにも苦戦しています。」
「この問題に対処する一つの潜在的な解決策は、複雑なキャプションを含む包括的なマルチモーダルデータセットを収集し、プロンプト理解の強化のためにテキストから画像への拡散モデルを訓練することです。しかし、このアプローチには顕著な欠点があります。多様で高品質なマルチモーダルデータセットをキュレーションするためには相当な時間とリソースが必要であり、広範なデータに対する拡散モデルの訓練や微調整に関連する課題は言うまでもありません。
これに対して、我々は訓練不要の新しい方法を提案します。これは拡散モデルにLLMを装備させ、プロンプト理解の強化のための基盤を提供します。我々の方法であるLLMグラウンデッド拡散(LMD)は、図2に示される二段階の生成プロセスで構成されています。」
2ステップで完成をするようです。結構手法の欄が長かったのでちょっと省略してお伝えします。
STEP1:レイアウト生成
最初にレイアウトを生成するところにはテンプレートを準備して、きちんと生成される画像ごとのBOXの指定も入るようです。
LLMベースのレイアウト生成
「画像のレイアウトを生成するために、私たちの方法は入力テキストプロンプトyをテンプレートに埋め込み、LLMに完成を求めます。
LMDのレイアウト表現には2つの要素が含まれています:
-
各前景オブジェクトに対するキャプション付きバウンディングボックスで、座標は(x, y, width, height)の形式で指定され、
-
画像の背景を簡潔に説明するキャプションと、生成された画像に現れるべきでないものを示すネガティブプロンプトです。
レイアウトが現れるべきでないものに制限を設けていない場合、ネガティブプロンプトは空です。」
STEP2:レイアウトから実際に画像を生成
どうやら最初に(a)のように、一つの画像に一つのオブジェクトを配置するということを集中し、それを作り、次に(b)でそれらのマクスがかかったオブジェクトを全体の中に入れ込んでいくということをするとイメージができるようです。
他にもいろんな画像の操作がありました。こうした拡散モデルでの画像の制御はさまざまな論文が出ており、大変興味深いです。どの手法が有力なのかまだわかっていませんがこれも一つの良い例として覚えておいて損はないと思いました。以上です。