LLM-grounded Diffusionを調べてみた

既存の画像生成AIを強化する「LLM-grounded Diffusion」　複数回の対話での生成、多言語生成が可能に

https://www.techno-edge.net/article/2023/07/31/1671.html

「Stable Diffusionのような従来の拡散モデルは、空間的な推論や常識的な推論が必要なプロンプトに対して正確に従うことが難しいことがあります。しかし、LLM-grounded Diffusion (LMD) という新しいアプローチは、複雑な空間的推論や常識的推論を必要とするプロンプトから高品質な画像を生成することができます。

この手法は、テキストからレイアウトへの生成と、それに続くレイアウトから画像への生成の2段階プロセスで構成されます。第一段階では、LLMをコンテキスト内学習によってテキストガイド付きレイアウト生成器に適応させます。

第二段階では、第一段階で生成されたレイアウトを条件として、新しいレイアウト条件付き画像生成法を提案します。これらのことにより、指定された領域におけるオブジェクトインスタンスに対する精密な制御が可能になります。

この手法は市販のLLMや拡散モデルに適用できます。LMDを用いた拡散モデルは、ベースとなる拡散モデルよりも、プロンプトに従う推論を必要とするタスクで優れた性能を示しています。」

github

https://github.com/TonyLianLong/LLM-groundedDiffusion

プロジェクトページ

https://llm-grounded-diffusion.github.io/

論文

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

Long Lian, Boyi Li, Adam Yala, Trevor Darrell

https://arxiv.org/abs/2305.13655

「テキストから画像への生成の分野は、特に拡散モデルの出現に伴い、顕著な進歩を遂げています。これらのモデルは、テキストプロンプトに応じて現実的で多様な画像を生成するという印象的な能力を示しています。しかし、印象的な結果にもかかわらず、拡散モデルは特定の理解能力を必要とする複雑なプロンプトに正確に従うことにしばしば苦戦します。図1では、Stable Diffusion（Rombach et al., 2022）がプロンプトで指定された特定の数のオブジェクトを生成したり、否定を理解したりすることができないことが示されています。また、空間的推論やオブジェクトに正しく属性を関連付けることにも苦戦しています。」

「この問題に対処する一つの潜在的な解決策は、複雑なキャプションを含む包括的なマルチモーダルデータセットを収集し、プロンプト理解の強化のためにテキストから画像への拡散モデルを訓練することです。しかし、このアプローチには顕著な欠点があります。多様で高品質なマルチモーダルデータセットをキュレーションするためには相当な時間とリソースが必要であり、広範なデータに対する拡散モデルの訓練や微調整に関連する課題は言うまでもありません。

これに対して、我々は訓練不要の新しい方法を提案します。これは拡散モデルにLLMを装備させ、プロンプト理解の強化のための基盤を提供します。我々の方法であるLLMグラウンデッド拡散（LMD）は、図2に示される二段階の生成プロセスで構成されています。」