風景写真や映像をアニメっぽく加工できる生成AI「Scenimefy」 シンガポールの研究者が開発
https://www.techno-edge.net/article/2023/08/28/1808.html#Scenimefy
「アニメの風景シーンを再現するため、シンガポールの研究者が「Scenimefy」という新しい半教師あり学習フレームワークを用いた画像変換技術を提案しています。
提案するシステムは、「StyleGAN」という先進的な技術を利用して、リアルなシーンとアニメの間で疑似ペアデータを生成します。このデータは、教師データとして使用され、高品質なアニメ変換の学習に役立ちます。
CLIPやVGGなどの事前学習モデルを用いて、StyleGANを微調整します。これにより、複雑なシーンの特徴を捉えると同時に、過学習を防ぎます。また、セグメンテーションガイドを使用して低品質なデータをフィルタリングし、より高品質な変換を達成します。」
プロジェクトページ
https://yuxinn-j.github.io/projects/Scenimefy.html
github
https://github.com/Yuxinn-J/Scenimefy
論文
Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation
Yuxin Jiang, Liming Jiang, Shuai Yang, Chen Change Loy
https://arxiv.org/abs/2308.12968v1
「アニメーションのシーンを複雑な現実世界の画像から自動的に高品質にレンダリングすることは、実用的な価値が非常に高い課題です。このタスクの難しさは、シーンの複雑さ、アニメーションスタイルの独自の特徴、およびドメイン間のギャップを埋めるための高品質なデータセットの不足にあります。以前の試みは、有望なものの、一貫した意味の保存、明確なスタイル化、および細部の細かいディテールを持つ満足のいく結果を達成するのにはまだ不十分でした。本研究では、これらの課題に対処する新しい半教師付きの画像対画像変換フレームワークであるScenimefyを提案します。アプローチは、純粋な非教師付き設定を簡略化する構造一貫性のある疑似ペアデータで学習をガイドします。疑似データは、CLIPなどの豊富なモデルの事前知識を活用するセマンティック制約付きのStyleGANからユニークに派生しています。高品質な疑似教示を得るために、セグメンテーションによるデータ選択をさらに適用します。パッチごとのコントラスティブスタイル損失を導入して、スタイル化と細部の向上を図っています。さらに、将来の研究を支援する高解像度のアニメーシーンデータセットを提供しています。広範な実験により、我々の方法が知覚品質と定量的性能の両方で最先端のベースラインに比べて優れていることが示されています。」
引用:https://arxiv.org/pdf/2308.12968v1.pdf
「図3: 疑似ペアデータ生成のためのセマンティック制約付きファインチューニング戦略の概要。左: 我々はソースジェネレータGsとターゲットジェネレータGtを初期化し、それらは実際のシーンドメインで事前に訓練されました。Gsはプロセス全体で固定されたままです。Gtは、アニメーシーンドメインに適応されるように初期レイヤーが凍結された状態で、豊富な事前訓練モデルのガイダンス(CLIP、VGGなど)を利用して最適化されます。事前訓練されたCLIPエンベッダーEを使用したパッチごとのコントラスティブ損失が適用され、ローカルな空間詳細をよりよく保存します。右: セグメンテーションにガイドされたデータ選択の後の生成された疑似ペアデータの例。」
StyleGANベースなので、Diffusionが流行っている現在でどの程度注目されるのかちょっと謎ですが、ついのデータを作れると。あとちょっと面白そうなのが、セグメンテーションを使った修正ですかね。
セマンティックセグメンテーションによるデータ選択
「擬似ペアデータの生成を通じて、粗いピクセル単位の対応を持つ合成のペアデータセットを得ました。しかし、このような生の擬似ペアデータは、低品質または構造的な一貫性が乏しいというリスクがまだ存在し、データのフィルタリングが必要です。
このため、我々は、セマンティックセグメンテーションによるデータ選択スキームを提案し、構造的な一貫性の乏しい低品質のサンプルを取り除くことを目指しています。最近のセマンティックセグメンテーションモデル、例えばMask2Former [7] は、アニメのドメインにも適用できることを観察しています。この観察を基に、Mask2Formerを使用して、セマンティック一貫性とセマンティック豊富さの2つの詳細にわたる基準に基づいて擬似ペアデータのフィルタリングを行います。具体的には、セマンティック一貫性を評価する指標としてピクセル単位のクロスエントロピー損失LBCEを採用します。損失値が5.0を超えるサンプルは除外されます。セマンティック豊富さを向上させるために、単一の検出カテゴリしかない画像は除外します。これは、セマンティック情報が少ないか低品質であることを示します。残された画像とそれらの予測マスクの視覚化を図4に示し、クリーン化された擬似ペアのさらなる例を図3に示しています。この段階で、残った擬似ペアデータは合理的な品質を実現していることが観察されます。」
「セグメンテーションガイドデータ選択スキームのフィルタリングの例。ピクセル単位のクロスエントロピー損失LBCEを使用して、低品質の画像を自動的にフィルタリングします。残された擬似ペアデータ(上)は、破棄されたペア(下)よりも高い構造的一貫性を示しています。」
なので、アニメ調に変換されたデータの品質をチェックするために、セグメンテーションを使って、品質をチェックしている点は面白いと思いました。