Animate-A-Storyを見てみる

日本語記事は出ませんでした。。。

動画内の被写体を変えて別の動画を生成できるAI「Animate-A-Story」　テンセント含む研究者らが開発

https://www.techno-edge.net/article/2023/07/17/1603.html#animateastory

「既存のText-to-Videoモデルでは、ユーザーが動画内の被写体のレイアウトやモーションをほとんど制御することができません。この課題を解決するために、本研究では「Animate-A-Story」というアプローチを提案しています。この手法を使用すると、既存の動画内の被写体の位置や動きを維持したまま被写体だけをテキストプロンプトで変えた動画を生成することが可能です。」

プロジェクトページ

https://ailab-cvc.github.io/Animate-A-Story/

論文

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen

https://arxiv.org/abs/2307.06940

プロジェクトページではあまりわからないので、論文をみます。

「私たちの目標は、ストーリーラインのスクリプトに基づいて、または最小限のインタラクティブな努力で、高品質なストーリーテリングビデオを自動的に生成するフレームワークを開発することです。これを実現するために、既存のビデオアセットを利用してT2V（テキストからビデオへの変換）生成のパフォーマンスを向上させることを提案します（第3.1節参照）。具体的には、取得したビデオから構造を抽出し、その後、T2Vプロセスに対してガイダンス信号として提供されます（第3.2節参照）。さらに、提案されたTimeInvアプローチに基づいてビデオキャラクターの再レンダリングを行い、異なるビデオクリップ間で一貫したキャラクターを合成します（第3.3節参照）。以下のセクションでは、その機能を可能にする鍵となる技術設計について詳しく説明します。」

引用：https://arxiv.org/pdf/2307.06940.pdf

テキストからビデオへの生成を強化するためのリトリーバル（修正・回復）

「図2に示されているように、私たちのビデオ生成フレームワークは、テキスト処理、ビデオリトリーバル、ビデオ合成の3つの手順を含みます。テキスト処理ステージでは、ストーリーボード分析を通じてストーリースクリプトから主要なプロットを抽出します。問題を単純化するために、個々のプロットをショットトランジションなしの単一イベントとして規制します。たとえば、「森の中で少年が狼に出会った」は単一のプロットですが、「森の中で少年が狼に出会い、銃で狼を殺した」というのは2つのプロットに分けられるべきです。各プロットについて、効果的なテキストクエリとテキストプロンプトとして機能するように、さらに説明を調整し装飾します。このステージは、GPT-4 [OpenAI 2023]のような大規模言語モデル（LLMs）の手助けを使って、手動で行われます。

その後、私たちは各プロットを別々に処理し、2つの連続したモジュールを使用します。テキストクエリを使用すると、既存のテキストベースのビデオリトリーバルエンジン [Bain et al. 2021] を通じて、インターネットから収集された約1000万のオープンワールドビデオのデータベースと関連付けられ、望ましいシナリオを示すビデオ候補を取得できます。ビデオの外観がプロットに正確に一致しない場合があるため、深度推定アルゴリズムを適用してその動きの構造のみを取り出します。これにより、既存のビデオの使い勝手が拡張されます。図3に示されている例で、「森の中でサンタクロースが狼と遊んでいる」ビデオを合成するために、ビデオデータベースにかなり一般的な「公園で犬と遊んでいる男性」のビデオの動きの構造を使用することができます。動きの構造をガイダンスとして利用することで、テキストプロンプトを通じてプロットに沿ったビデオを合成することができます。次に、構造ガイド付きのT2V（テキストからビデオへの変換）モデルについて詳しく説明します。」

「条件付きLDM（Latent Diffusion Model）を使用して、図3に示される概要に従い、制御可能なビデオ合成を学習します。私たちのアプローチでは、ビデオはフレームごとに潜在空間へ変換（または潜在空間から再構築）されます。」

一通り見ましたが、CLIPでテキストエンコーダー、3DU-Netでデノイザーという標準構成でした。深度マップで動きを制御ですが、CNNベース。テキストはクロスアテンションを通じて、全体の構造はレイヤーの後に追加で対応しているそうです。

引用：https://arxiv.org/pdf/2307.06940.pdf

「図3. 私たちの調整可能な構造誘導型テキストからビデオへのモデルの概要です。

私たちは、ソースビデオからの深度情報を使用して、ビデオ合成プロセスをガイドします。このモデルには2つのブランチがあります：一般的なテキストからビデオへの合成ブランチであり、潜在空間におけるビデオ拡散モデルであり、そして構造制御をエンコードし課すためのサイドブランチです。制御メカニズムは要素ごとの特徴の追加です。特筆すべきは、深度制御は調整可能であり、これはセクション3.3で説明するさらなるキャラクター再レンダリングにとって重要な特性です。」

「ビデオキャラクター再レンダリング

前述したビデオ合成フレームワークは、高品質で多様な動きのビデオを提供することができます。しかし、テキストプロンプトによって制御される生成されたキャラクターの外観は、異なるビデオクリップで変化します。この課題を克服するために、次の目的でこの問題を定式化しました：事前トレーニングされたビデオ生成モデルとユーザーが指定したキャラクターが与えられた場合、私たちの目標は、異なるビデオクリップ間で一貫性のあるキャラクターを生成することです。このタスクをビデオキャラクター再レンダリングと呼びます。これを行うために、画像拡散モデルのパーソナライズアプローチに関する既存の文献を調査しました。しかし、これらの方法をビデオのパーソナライズに直接適用することにはいくつかの課題があります。1) ビデオモデルのパーソナライズに画像データをどのように利用するか？ビデオパーソナライズのための直接的なアプローチは、特定のキャラクターを描写するビデオデータを利用することです。しかし、一貫したキャラクターのビデオデータを画像よりも収集するのはずっと困難です。2) コンセプトの組み合わせ性とキャラクターの忠実度の間のトレードオフをどのように調整するか？この課題も画像パーソナライズ文献においても現れます。このセクションでは、予備的なアプローチと私たちの方法について詳しく説明します。」

「予備的な研究：テキスト逆転。テキスト逆転は、新しいコンセプトを新しいトークン \( S^* \) に表現し、CLIPテキストエンコーダー \( c_\theta \) で対応する新しいトークン埋め込みベクトル \( v^* \) を学習することを目指す画像パーソナライズアプローチです。\( v^* \) は、特定のコンセプトを描写する3～10枚の画像を使用して直接最適化されます。トレーニング後、新しいトークンは他の単語トークンと組み合わせて文を形成することができます。このトークンシーケンスはテキストエンコーダーを通過し、条件付きテキストトークンの埋め込みを取得することで、望ましいコンセプトを生成するための画像生成を制御することができます。」

「タイムステップ可変テキスト逆転（TimeInv）。しかし、単一のトークン埋め込みベクトルの最適化は、その最適化されたパラメータのサイズが限られているため、表現能力に限界があります。さらに、豊富な視覚的特徴と詳細を持つコンセプトを一つの単語で表現することは非常に難しく、不十分です。そのため、コンセプトの忠実度に関して不満足な結果に苦しむことがあります。

この問題に対処するため、私たちはタイムステップ可変テキスト逆転（TimeInv）を提案します。TimeInvは、異なるタイムステップが推論段階で異なる画像属性のレンダリングを制御するという観察に基づいています。例えば、デノイジングプロセスの前のタイムステップは、全体のレイアウトやオブジェクトの形を制御し、デノイジングプロセスの後半のタイムステップは、テクスチャや色のような低レベルの詳細を制御します。ターゲットコンセプトを描写するトークンをより良く学習するために、全タイムステップで制御トークン埋め込みを格納するタイムステップ依存のトークン埋め込みテーブルを設計します。トレーニング中、全DDPMタイムステップの中からランダムなタイムステップをサンプリングし、タイムステップ埋め込みマッピングテーブル \( V \in \mathbb{R}^{T \times d} \) を直接最適化します。ここで、\( T \) は拡散プロセスの総タイムステップ数、\( d \) はトークン埋め込みの次元です。推論中、現在のデノイジングタイムステップに基づいてトークン埋め込みが取得され、その後、トークン埋め込みのシーケンスに合成されます。」

この辺りは解説が進みます。

「ビデオのカスタマイズにおける画像データの利用。ビデオのパーソナライズのもう一つの課題は、画像データを利用してビデオ生成モデルを最適化する方法です。画像をビデオに直接繰り返し最適化すると、動きの省略問題が発生します。静的な動きはターゲットコンセプトに結びつきやすく、多様な動きを持つコンセプトを生成するのが難しくなります。以前紹介した構造誘導モジュールのおかげで、今や静的な構造ガイダンスを使用してコンセプトを学習することができます。具体的には、コンセプト画像を \( L \) フレームの擬似ビデオに繰り返し、フレームごとの深度信号を抽出してビデオ生成モデルを制御し、静的なコンセプトビデオを合成します。推論時には、ターゲットコンセプトを他の動きのガイダンスと簡単に組み合わせて、多様なアクションを持つコンセプトを生成できます。」

画像で最適化すると動きが単調になるんですね。。。

「低ランク重み変調。テキストの反転だけを使用するだけでは、与えられたキャラクターの外観の詳細を捉えるのは依然として困難です。以前のアプローチがモデルパラメータを直接最適化するのとは異なり、事前訓練されたモデルのコンセプト生成と組み合わせ能力に影響を与えることなく、attentionモジュールの事前訓練された線形層に追加の低ランク [Hu et al. 2021] 行列を追加します。低ランク行列は二つの訓練可能な線形層から構成されています。これらの行列を私たちのモデルのクロスアテンションと空間セルフアテンションモジュールに挿入します。」

LoRAも使うそうです。

「構造ガイダンスとコンセプト生成の間の矛盾。私たちの特別な設計でコンセプトをビデオ生成にうまく注入することができるものの、深刻なコンセプトガイダンスの矛盾問題がまだ存在します。具体的には、カスタマイズされたテディベアを学習し、その後、ソースビデオを使って動きのガイダンスを提供したい場合、テディベアが動くビデオを収集するのは困難で時間がかかります。さらに、深度によって提供される形状は、生成される形状がIDの形状に従う必要があるため、IDの類似性に大きな影響を与えます。したがって、深度ガイダンスモデルが深度制御を緩和する能力を持つことが重要です。これを解決するために、私たちはサンプリング中のタイムステップクランプを通じて深度ガイダンスモジュールを調整可能にしました。具体的には、タイムステップ \( t = T, ..., \tau \) のみでフィーチャに深度ガイダンスを適用し、タイムステップ \( \tau \) 以降は深度フィーチャを落とします。また、推論中にフィーチャのリスケーリングを試みましたが、タイムステップクランプに比べて深度調整が悪かったです。」

引用：https://arxiv.org/pdf/2307.06940.pdf

LoRA部分には出なかったですが、パーソナライゼーションのコンセプト図は、

引用：https://arxiv.org/pdf/2307.06940.pdf

「異なるパーソナライゼーションアプローチのコンセプト図。生成されたキャラクターの一貫性の問題を克服するために、既存のパーソナライゼーションアプローチを研究し、ターゲットキャラクターの外観を再レンダリングする新しい方法を提案します。CLIPテキストエンコーダーとデノイザU-Netのすべてのパラメーターを固定し、ターゲットキャラクターのセマンティック特徴を表現するためにタイムステップ依存のトークン埋め込みを学習します。さらに、注意モジュールのq、k、vの投影レイヤーに新しいブランチを挿入し、事前訓練された重みを調整して、キャラクターをより良く表現します。」

ということで一通り仕組みは見れたかなと思います。

Animate-A-Storyを見てみる

Yuichiro Minato