安定したビデオ合成ができる動画処理技術「CoDeF」 中国の研究者らが開発
https://www.techno-edge.net/article/2023/08/21/1773.html#CoDeF
「「CoDeF」という新しい設計により、ビデオに対して調整もせずに画像処理のアルゴリズムをビデオ処理に直接適用することが可能になります。
CoDeFは、ビデオ全体の静的コンテンツを集約するモジュール「Canonical Content Field」と、時間軸に沿って各フレームへの変換を記録するモジュール「Temporal Deformation Field」から構成されます。
入力ビデオに対して、これらの2つのフィールドがレンダリングパイプラインを通じて共同で最適化されます。さらに、最適化プロセスにいくつかの正則化を導入することで、ビデオからの意味情報を伝搬させるようにしています。
実験の結果、CoDeFは、訓練なしで画像からビデオへの変換やキーポイントトラッキング、セグメンテーションなどに拡張することができることが示されました。比較実験では、既存の類似手法に比べ約4倍の品質向上を実現し、また従来10時間以上かかっていた処理が約300秒で完了するなど、効率の向上も実現しました。」
github
https://github.com/qiuyu96/CoDeF
プロジェクトページ
https://qiuyu96.github.io/CoDeF/
論文
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
https://arxiv.org/abs/2308.07926v1
「我々は、コンテンツ変形フィールド(CoDeF)を新しいタイプのビデオ表現として提示します。これは、ビデオ全体の静止したコンテンツをまとめた標準的なコンテンツフィールドと、各個別フレームへの変換を記録する時間的変形フィールドから構成されます(標準的なコンテンツフィールドからレンダリングされたもの)。対象のビデオが与えられた場合、これらの2つのフィールドは、注意深く設計されたレンダリングパイプラインを介して再構築するために共同で最適化されます。最適化プロセスにいくつかの正則化を導入し、標準的なコンテンツフィールドがビデオからセマンティクス(例:オブジェクトの形状)を継承するように促します。このような設計により、CoDeFは自然にビデオ処理用の画像アルゴリズムを提供し、つまり、画像アルゴリズムを標準の画像に適用し、時間的変形フィールドの支援を受けてその結果をビデオ全体に簡単に伝播させることができます。実験的には、CoDeFは画像から画像への変換をビデオからビデオへの変換に昇華し、トレーニングを必要とせずにキーポイント検出をキーポイントトラッキングに昇華することができることを示しています。さらに重要なことに、アルゴリズムを1つの画像にのみ展開するリフティング戦略を採用することで、既存のビデオからビデオへの変換アプローチと比較して、処理されたビデオでのクロスフレームの一貫性が向上し、水やスモッグなどの非剛体オブジェクトを追跡することができます。」
引用:https://arxiv.org/pdf/2308.07926v1.pdf
「図1. CoDeFの多目的な応用例,(a) テキストに誘導されたビデオからビデオへの翻訳(左側:翻訳されたフレーム、右側:入力フレーム),(b) ビデオオブジェクトの追跡,および(c) ビデオキーポイントの追跡。提案されたビデオ表現の種類を使用することで、ビデオに対する調整なしに画像アルゴリズムを直接ビデオ処理に適用できることに注意すべきです。」
引用:https://arxiv.org/pdf/2308.07926v1.pdf
「図2. 提案されたビデオ表現であるCoDeFの説明。この表現は、任意のビデオを2Dコンテンツ標準フィールドと3D時間的変形フィールドに因数分解します。各フィールドは、効率的なMLPを使用してマルチレゾリューションの2Dまたは3Dハッシュテーブルで実装されています。この新しいタイプの表現は、画像アルゴリズムをビデオ処理に適用することを自然にサポートし、つまり、標準的なコンテンツフィールドからレンダリングされた標準的な画像にアルゴリズムを直接適用し、その結果を時間軸に沿って時間的変形フィールドを介して伝播させる方法です。」
問題設定
「ビデオVがフレーム{I1、I2、...、IN}で構成されている場合、対応するビデオタスクごとに画像処理アルゴリズムXを各フレームに単独で適用することができますが、フレーム間で望ましくない不整合が生じることがあります。別の戦略では、アルゴリズムXを時間モジュールで強化することが含まれ、これにはビデオデータでの追加のトレーニングが必要です。ただし、単に時間モジュールを導入するだけでは理論的な一貫性を保証するのが難しく、トレーニングデータが不足しているため性能の低下を引き起こす可能性があります。
これらの課題に着想を得て、ビデオVを平坦な標準画像Icと変形フィールドDを使用して表現する提案を行います。標準の画像アルゴリズムXをIcに適用することで、学習した変形フィールドを使用して効果をビデオ全体に効果的に伝播させることができます。この新しいビデオ表現は、画像アルゴリズムとビデオタスクの間の重要な架け橋として機能し、最先端の画像方法論をビデオアプリケーションに直接適用できるようにします。
提案された表現は、以下の重要な特性を示す必要があります:
• 忠実なビデオ再構築のための適合能力。表現は、ビデオ内の大規模な剛体または非剛体の変形を正確に適合させる能力を持つ必要があります。
• 標準画像の意味的な正確さ。歪んだまたは意味的に正しくない標準画像は、画像処理パフォーマンスの低下を引き起こす可能性があります。特に、これらのプロセスのほとんどは自然画像データで訓練されていることを考慮すると、重要です。
• 変形フィールドの滑らかさ。変形フィールドの滑らかさを確保することは、重要な特徴であり、それが保たれることを確認します。」
かなり技術的な詳細が多かったので今回は開設を諦めました。動画の編集アルゴリズムを適用したい場合にはより読み込む必要があると感じました。以上です。