拡散モデルによる画像フレーム補完の論文を調べてみた

画像間のフレームを滑らかに埋める技術　動画生成AIに役立つ可能性

https://www.techno-edge.net/article/2023/07/31/1671.html

「この研究では、事前に訓練された潜在拡散モデルを使用して、様々なドメインやレイアウトの画像間で高品質な補間画像を生成する手法を提案しています。この手法を用いることで、異なるスタイル、内容、ポーズを持つ画像のペアを組み合わせ、想像力豊かで高品質なシーケンスを作成することが可能です。

手法の概要として、新しいフレームを生成するために、2つの既存フレームのノイジーな潜在画像を補間します。元の入力画像からテキストプロンプトとポーズを抽出し、これを条件付け入力としてノイズ除去器に提供します。このプロセスを異なるノイズベクトルに対して繰り返すことで、複数の候補を生成することができます。そして、望ましい特性を持つ候補は、プロンプトに対するCLIP類似度を計算することで選択されます。」

プロジェクトページ

https://clintonjwang.github.io/interpolation

論文

Interpolating between Images with Diffusion Models

Clinton J. Wang, Polina Golland

https://arxiv.org/abs/2307.12560

github

https://github.com/clintonjwang/ControlNet

アブストラクト

「画像生成と編集のほぼ未開拓の分野の1つは、2つの入力画像の間を補間するタスクです。現在の画像生成パイプラインではこのような機能が欠けています。私たちは、このような機能がこれらのモデルの創造的な応用を拡大できると主張し、潜在的な拡散モデルを使用したゼロショットの補間方法を提案します。我々は、ノイズレベルを段階的に低減させるシーケンスで潜在空間での補間を適用し、その後、テキスト反転から派生した補間されたテキスト埋め込みを条件としてデノイジングを行います。さらなる一貫性を持たせるため、または追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高品質の画像を選択することができます。私たちは、さまざまな被写体のポーズ、画像のスタイル、画像のコンテンツをまたがる説得力のある補間を得ることができ、FIDなどの標準的な定量的メトリクスは補間の品質を測定するために不十分であることを示しています。」

画像の補完についてみたいです。Diffusion Model + CLIPで実現できるようです。

潜在的な補間

「補間のシーケンスを生成するための一般的な戦略は、与えられた2つの入力画像から始めて、画像のペアを反復的に補間することです。各親画像のペアに対して、共有ノイズをそれらの潜在ベクトルに追加し、それらを補間し、その結果をデノイズして中間画像を生成します。親画像がシーケンス内で近くにある場合、親ベクトルに追加するノイズの量は小さくする必要があり、滑らかな補間を促進します。親画像が遠くにある場合、ノイズの量を大きくする必要があり、LDMが潜在空間内の高い確率を持ち、他の条件付け情報により適合する近くの軌道を探索できるようにします。」

「補間タイプとして、潜在空間とテキスト埋め込みの補間には球面線形補間（slerp）を使用し、ポーズの補間には線形補間を使用しています。経験的には、slerpと線形補間の違いはかなり穏やかに見えます。」

「ノイズスケジュールについて、DDIMサンプリング（Song et al., 2022）を行い、拡散プロセスを少なくとも200のタイムステップに分割した場合、LDMの品質がより一貫していることがわかりました。また、より粗いスケジュールでは品質が顕著に劣化することが確認されています。経験的に、スケジュールの25%未満でノイズ除去された潜在ベクトルは、しばしばその親画像のアルファ合成に似ていることが多いですが、65%以上で生成された画像は、その親画像から大きく逸脱することがあります。各補間において、出力に望まれる変化の量に応じて、この範囲内で線形のノイズスケジュールを選択します。我々のアプローチは、比較的同等の結果をもたらすと思われる様々な確率的サンプラー（Karras et al., 2022）と互換性があります。」

「被写体のポーズが2つの画像間で大きく異なる場合、画像の補間は困難であり、しばしば複数の四肢や顔などの解剖学的な誤りをもたらします。異なるポーズの被写体間のよりもっともらしい遷移を得るために、LDMにポーズ条件付け情報を組み込んでいます。入力画像のポーズはOpenPose（Cao et al., 2019）を使用して取得し、漫画や非人間的な被写体にはスタイル転送を助けとしています（図4参照）。次に、2つの画像から共有キーポイント位置を線形に補間し、各画像の中間ポーズを取得します。その結果得られたポーズは、任意の画像のような入力に条件付けをする強力な方法であるControlNet（Zhang & Agrawala, 2023）を使用してLDMに提供されます。興味深いことに、入力画像に対して間違ったポーズが予測されたとしても、ポーズに条件付けをすることは、突然のポーズ変化を防ぐため、より優れた補間をもたらすことが観察されています（図3参照）。」

全体的にあまりコメントすることがありませんが、続けます。

CLIPランキング

「異なるランダムシードを用いると、LDMは質や特徴が大きく異なる出力を生み出すことがあります。この問題は実際の画像補間においてさらに複雑化します。なぜなら、一つの悪い生成画像が、それから派生した他のすべての画像の質を損なうからです。したがって、速度よりも品質が重要な場合、異なるランダムシードで複数の候補を生成し、その後CLIP（Radford et al., 2021）でランキングすることができます。我々は、異なるノイズベクトルで各前方拡散ステップを繰り返し、補間された潜在ベクトルをそれぞれデノイズし、デコードされた画像が指定された肯定的および否定的なプロンプトとどの程度CLIP類似性があるかを測定します（例えば、肯定的なプロンプト："高品質、詳細、2D"、否定的なプロンプト："ぼやけた、歪んだ、3Dレンダリング"）。肯定的な類似性と否定的な類似性の差が最も高い画像が保持されます。さらに高いレベルのコントロールと品質が求められるアプリケーションでは、このパイプラインをインタラクティブモードに変更して、ユーザーが手動で望ましい補間を選択したり、特定の画像に新しいプロンプトやポーズを指定したりすることができます。」

ということで、全体的には中間の画像を生成し、シードを変更してCLIPで評価して品質を保つということをしているようです。

拡散モデルによる画像フレーム補完の論文を調べてみた

Yuichiro Minato