Stable Videoを調べる（Stable Video Diffusionではない）

テキスト指示で高い一貫性を保った動画編集が可能な「StableVideo」

https://www.techno-edge.net/article/2023/08/28/1808.html#StableVideo

「生成AIによるビデオ編集の分野では、高品質かつ一貫性のある編集を実現するのは依然として難しい課題となっています。なぜなら、ビデオは連続した画像で構成されており、一部を変更するだけで、全体の一貫性や自然さが失われる可能性があるからです。この問題を解決するための新しい方法として「StableVideo」というアプローチが提案されています。この方法は、映像の中から代表的な部分、いわゆる「キーフレーム」を選び、それを基に編集を行います。そして、そのキーフレームの編集結果に基づき、ビデオ全体の映像を調整します。」

論文

StableVideo: Text-driven Consistency-aware Diffusion Video Editing

Wenhao Chai, Xun Guo, Gaoang Wang, Yan Lu

https://arxiv.org/abs/2308.09592

github

https://github.com/rese1f/stablevideo

「拡散ベースの方法はリアルな画像や動画を生成できますが、既存のビデオ内のオブジェクトを編集してもその外観を時間をかけて維持することが難しいため、実用的なシナリオで自然なビデオ編集には適用されていませんでした。本論文では、既存のテキスト駆動型拡散モデルに時間的依存性を導入することで、編集されたオブジェクトの一貫性のある外観を生成できるようにこの問題に取り組みます。具体的には、拡散ビデオ編集のための新しいフレーム間伝播メカニズムを開発し、1つのフレームから次のフレームへの外観情報の伝播にレイヤー表現の概念を活用します。そして、このメカニズムに基づいたテキスト駆動型ビデオ編集フレームワークであるStableVideoを構築します。これにより、一貫性を考慮したビデオ編集が可能になります。広範な実験により、我々のアプローチの強力な編集能力が示されています。最先端のビデオ編集方法と比較して、我々のアプローチは優れた定性評価と定量評価の結果を示します。」

これまでいくつかビデオ編集用の拡散モデルは見てきましたが、そのうちの一つのようです。

引用：https://arxiv.org/pdf/2308.09592.pdf

「提案されたStableVideoのフレームワークです。入力ビデオはまず、事前にトレーニングされたモデルを使用して前景と背景のアトラスを生成するためにNLA [24] に供給されます。 Gbは背景アトラスを編集するのに使用され、Gfは前景のキーフレームを編集するために使用されます。 GbとGfは同じ重みを共有しますが、異なる条件を受け入れます。 GbではMiDaS [35] によって抽出された深度情報を使用して、前景の動きと環境との一貫性を維持し、Gfでは新しく生成された前景と古い前景との幾何学的一貫性を保つために構造ガイダンスが使用されます。編集が完了した後、前景と背景はブレンドされて編集されたフレームが再構築されます。」

問題の定義

「私たちは、編集されたコンテンツが対象のオブジェクトやシーンがビデオ全体で均一な外観と動きを維持できるようにするために、事前に訓練されたNLAモデル[24]を使用しています。NLAのコンセプトは、入力ビデオを前景アトラスと背景アトラスと呼ばれる層状の表現に分解することで、それぞれ前景と背景に対する関連するピクセルをグローバルに要約します。」

インターフレーム伝播

「このセクションでは、インターフレーム伝播メカニズムが一貫性のある前景編集にどのように役立つかについて詳しく説明します。拡散モデルの主要な課題の1つは、動画コンテンツを時間的に一貫性のあるものとして生成することです。既存の最先端のテキスト駆動型拡散法[55、28]は、構造条件を追加することにより、画像編集の場合、ターゲットオブジェクトと生成されたオブジェクトとの間で似たようなジオメトリを維持できます。しかし、動画の場合、状況は異なります。時間的に一貫したジオメトリを生成するには、時間を跨いで変化するいくつかの不確実な要因、例えば動きや変形、を処理する必要があり、これらはそれらによってサポートされないかもしれません。我々は、拡散モデルが現在のフレームの構造と前のフレームからの外観情報の両方を考慮するようにするための条件付きのノイズリダクションプロセスを導入することにより、この問題に取り組んでいます。具体的には、既存の拡散法[55]でも採用されているcanny edgeを構造ガイダンスとして使用しています。もう1つの重要な問題は、1つのオブジェクトの情報をフレーム間で伝播して一貫性のある外観を実現する方法です。NLAの支援を受けて、前フレームの重なる部分の外観特徴を次のフレームに転送できます。SDEdit [26]とILVR [7]からインスパイアを受けて、ノイズを追加し、ノイズを除去してより完全な出力を得るプロセスをさらに使用しています。」

引用：https://arxiv.org/pdf/2308.09592.pdf

「前景編集のためのフレーム間伝播。より明確にプロセスを説明するために、2つの編集されたキーフレーム、Ei−1とEi、を使用します。構造ガイダンスとテキストプロンプトは、連結と交差注意メカニズムを介して、ノイズ除去UNetに追加されます。」

集約ネットワーク

「我々のアプローチはアトラスではなくビデオフレームを編集するため、異なる視点からの情報をより多く取得する機会があります。これには2つの利点があります。第一に、異なる視点からのジオメトリとピクセルは、ターゲットオブジェクトの詳細情報を提供し、拡散モデルが高い忠実度で編集されたコンテンツを生成できるようにします。第二に、これにより、アトラスからビデオフレームへのポテンシャルな誤ったマッピングによる編集の失敗のリスクが軽減されます。その後、図4に示すように、スキップ接続を持つシンプルで効果的な2層2D畳み込みネットワークを使用して、編集されたキーフレームを集約します。私たちの目標は、集約されたアトラスが、位置の観点からオリジナルのアトラスと高度に整列していることを保証し、外観の編集が幾何学的な整合性と時間的な連続性に影響を与えないようにすることです。トレーニングプロセスでは、編集されたキーフレームと再構築されたキーフレーム間の再構築損失、Lrec、が使用されます。」

引用：https://arxiv.org/pdf/2308.09592.pdf

「集約ネットワークのトレーニングプロセス。我々は、編集されたキーフレームから生成された部分アトラスを集約するために、シンプルな3Dネットワークを使用しています。」

オブジェクトと背景に分けてそれぞれを調整。おそらくオブジェクトの方が難しいので、それの動画間での一貫性を保つために、フレーム間での情報の共有とフレームの再構築を入れているちょっと複雑な仕組みとなっていました。

Stable Videoを調べる（Stable Video Diffusionではない）

Yuichiro Minato