調べてたらEmuというタイトルで同時にに種類の研究が出てました。
最初の中国のはマルチモーダルのフレームワーク、Metaは拡散モデルの高品質画像生成のようです。
一つずつ行きます。
参考記事はこちら、
テキスト、画像、動画を同時に処理し生成する大規模マルチモーダルモデル「Emu」
https://www.techno-edge.net/article/2023/07/17/1603.html
「1つの機械学習モデルでテキスト、画像、動画など複数のモダリティを組み合わせて理解する大規模マルチモーダルモデル(Large Multimodal Model: LMM)が研究されています。しかし、これらのLMMは主に画像とテキストのペアやドキュメントに対して学習されることがほとんどであり、マルチモーダルデータのスケーラブルな供給源である動画像データは見過ごされているという課題があります。
この研究では、ビデオと画像データから学習するTransformerベースの大規模マルチモーダルモデル「Emu」を提案します。Emuは、視覚とテキストの両方のトークンを含むデータに対して自己回帰目的で学習され、画像に対するキャプション付けや画像や動画への質問応答、テキストから画像への生成などの多様なマルチモーダルタスクを遂行できる能力を持っています。」
ということで、画像ばっかりのマルチモーダルに動画をということみたいです。
こちらにデモがあります。
論文はこちら、
Generative Pretraining in Multimodality
Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
https://arxiv.org/abs/2307.05222v1
プロジェクトページはこちら
https://github.com/baaivision/Emu
なんか機能が色々ありそうです。
「Emuは、マルチモーダルな文脈で画像とテキストをシームレスに生成できるマルチモーダルの汎用モデルです。Emuは統一された自己回帰的目的、つまり視覚的埋め込みとテキストトークンの両方を含む「次の要素を予測する」という目的の下で訓練されています。この目的の下で訓練されることにより、Emuは画像からテキストへのタスクとテキストから画像へのタスクの両方に対して一般的なインターフェースとして機能することができます。」
引用:https://github.com/baaivision/Emu
「Emuは、マルチモーダルな文脈で画像とテキストをシームレスに生成できるマルチモーダルの汎用モデルです。Emuは統一された自己回帰的目的、つまり視覚的埋め込みとテキストトークンの両方を含む「次の要素を予測する」という目的の下で訓練されています。この目的の下で訓練されることにより、Emuは画像からテキストへのタスクとテキストから画像へのタスクの両方に対して一般的なインターフェースとして機能することができます。」
LLamaで構築されたLLMにCLIPベースのテキストエンコーダーと、Stable DiffusionベースのデコーダーでRegressionされた内容を画像に出すみたいです。
引用:https://github.com/baaivision/Emu
Emuは、画像キャプション、画像/ビデオの質問応答、テキストから画像への生成といった多様なマルチモーダルタスクをこなすことができる汎用インターフェースとして機能します。さらに、コンテキスト内のテキストと画像の生成や画像のブレンドなどの新しい能力も備えています。
論文も読みたいところですが、あんまり時間がないので次に行きます。
MetaからもEmuが出てます。
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Emu: 針の山で写真映えする針を使って画像生成モデルを強化する
「テキストから様々な視覚コンセプトを生成するためにウェブスケールの画像テキストペアで事前にトレーニングされたテキストから画像へのモデルは、高度に美的な画像の生成において課題を抱えることがよくあります。これにより、事前トレーニング後に美的な調整が必要になります。本論文では、事前にトレーニングされたモデルを効果的にガイドして、視覚的に魅力的な画像のみを生成するための品質チューニングを提案します。重要な洞察は、驚くほど小さくて非常に視覚的に魅力的な画像のセットでの教師ありファインチューニングが、生成品質を大幅に向上させることができるということです。我々は、11億枚の画像テキストペアで潜在拡散モデルを事前トレーニングし、数千枚の厳選された高品質の画像でファインチューニングを行います。その結果、Emuと呼ばれるモデルは、事前にトレーニングされたみのモデルと比較して82.9%の勝率を達成しました。最先端のSDXLv1.0と比較して、Emuは標準的なPartiPromptsと我々のOpen User Inputベンチマークで視覚的魅力において68.4%および71.3%の好意を得ています。また、品質チューニングは他のアーキテクチャ、ピクセル拡散やマスク生成トランスフォーマーモデルにも効果的であることを示します。」
とにかく品質が良い画像生成のようです。
引用:paper
潜在拡散モデルの構造
「私たちは、1024×1024解像度の画像を出力する潜在拡散モデルを設計しました。標準的な潜在拡散アーキテクチャの設計に従って、私たちのモデルにはオートエンコーダ(AE)があり、画像を潜在的な埋め込みにエンコードし、U-Netがノイズ除去プロセスを学習します。
一般的に使用される4チャンネルのオートエンコーダ(AE-4)アーキテクチャは、その高い圧縮率のために、再構築された画像の詳細が失われることがしばしばあります。この問題は特に小さなオブジェクトで顕著です。直感的に、これは3つの2×2ダウンサンプリングブロックを使用して画像解像度を64倍に圧縮しますが、チャネルサイズを3(RGB)から4(潜在チャネル)にしか増やしません。私たちは、チャネルサイズを16に増やすと再構成品質が大幅に向上することを発見しました(表1を参照)。再構成性能をさらに向上させるために、敵対的損失を使用し、フーリエ特徴変換を使用してRGB画像に非学習可能な前処理ステップを適用し、入力チャネル次元を3(RGB)から高次元に上げて、微細構造をより良く捉えます。異なるチャネルサイズのオートエンコーダの定性的な結果については、図3を参照してください。」
「私たちは、2.8Bの訓練可能なパラメータを持つ大型のU-Netを使用しています。より大きなモデル容量のために、各段階でのチャネルサイズと積み重ねられた残差ブロックの数を増やしています。テキスト条件として、CLIP ViT-L [23] と T5-XXL [24] の両方からのテキスト埋め込みを使用しています。」
「事前トレーニング
我々は、1.1億枚の画像からなる大規模な内部事前トレーニングデータセットを編成し、モデルを訓練します。このモデルは、[21]のように、徐々に解像度を高めながらトレーニングされます。この段階的なアプローチにより、モデルは低解像度での高レベルな意味論を効率的に学習し、最高解像度での細かいディテールを向上させることができます。また、事前トレーニングの最終段階でノイズオフセット[3]を0.02使用します。これにより、高コントラストの生成が可能となり、生成された画像の美観に貢献します。」
モデルもでかいんですね。当たり前ですが。
「高品質アライメントデータ
以前に議論したように、モデルを高い美的生成に合わせるためには、微調整データセットでの品質が量よりもはるかに重要です(品質対量に関するアブレーション研究については、セクション4.3を参照)。また、美的感覚は非常に主観的であることも議論されました。ここでは、私たちが選んだ美的基準と、自動フィルタリングと手動フィルタリングを組み合わせて微調整データセットをキュレーションした方法について詳しく説明します。一般的な品質調整戦略は、他の美的基準にも適用される可能性があります。
自動フィルタリング。数十億枚の画像からなる初期プールから、まず一連の自動フィルタを使用してプールを数億枚に減らします。これらのフィルタには、攻撃的なコンテンツの除去、美的スコアフィルタ、光学文字認識(OCR)の単語数フィルタ(テキストが多すぎる画像を排除するため)、CLIPスコアフィルタ(画像とテキストの整合性が悪いサンプルを排除するため)などが含まれますが、これらは大規模データセットの調達における標準的な事前フィルタリングステップです。次に、画像サイズとアスペクト比を通じてさらなる自動フィルタリングを行います。最後に、さまざまなドメインやカテゴリからの画像をバランス良くするために、視覚的コンセプト分類[36]を利用して特定のドメイン(例:ポートレート、食品、動物、風景、車など)から画像を収集します。最後に、独自のシグナル(例:「いいね」の数)に基づいた追加の品質フィルタリングを行うことで、データを20万枚までさらに減らすことができます。」
「人間によるフィルタリング。次に、非常に美的な画像のみを保持するために、2段階の人間によるフィルタリングプロセスを実行します。最初の段階では、一般的な注釈付け者に、画像プールを2万枚に減らすように指示します。この段階での主な目標は、ミディアムおよびローコングオリティの画像を除外し、自動フィルタリングを通過した可能性がある画像を取り除くことです。2番目の段階では、写真の原則に良く理解している専門の注釈付け者を参加させます。彼らのタスクは、最高の美的品質を持つ画像を選別することです(例は図4を参照)。この段階では、選択する画像を非常に厳選することを目指しており、主に精度を最適化します。写実的な画像に関する簡単な注釈のガイドラインは以下のとおりです。我々の仮説は、高品質の写真の基本的な原則に従うことが、さまざまなスタイルにわたるより一般的な美的な画像を導くものであり、これは人間の評価によって検証されています。」
なんかその後に具体的な美の基準の話になっています。
「このフィルタリングプロセスを通じて、非常に高品質な画像合計2000枚を保持しました。その後、それぞれの画像に対して正確なキャプションを作成しました。なお、これらの厳選された画像の中には、我々の目標解像度である1024×1024を下回るものも含まれています。必要に応じてこれらの画像をアップサンプルするために、[30]で提案されたアーキテクチャに触発されたピクセル拡散アップサンプラーを訓練しました。」
「Quality-Tuning
ビジュアルに魅力的な画像(私たちが収集した2000枚のようなもの)は、共通の統計情報を共有するすべての画像のサブセットと考えることができます。私たちの仮説は、強力に事前訓練されたモデルは既に非常に美しい画像を生成する能力を持っているが、生成プロセスが常にこれらの統計情報を持つ画像を生成するように適切に誘導されていないということです。品質チューニングは、出力を高品質のサブセットに制限する効果的な手法です。
我々は、品質チューニングを小さなバッチサイズ(64)で行います。この段階ではノイズオフセットを0.1に設定します。重要なのは、ここで早期停止です。小さなデータセットで長時間ファインチューニングを行うと、過剰適合が発生し、視覚的なコンセプトの一般性が低下します。私たちは、損失がまだ減少しているにもかかわらず、15,000回を超えるイテレーションでのファインチューニングを行いません。この合計イテレーション数は経験的に決定されています。」
ということで、結構拡散モデルのパラメータを変えたり、データセットを高品質にすることで高品質な画像生成モデルができるという話のようでした。わかりやすいです。