Nobisuke
Dekisugi
RAG
Community
Privacy policy
2024/09/07 05:15
On the Importance of Noise Scheduling for Diffusion Models
Ting Chen
Google Research, Brain Team
こちらを見てみます。拡散モデルについてノイズのスケジューリングパラメータについて考察しています。
この研究では、拡散生成モデルにおけるノイズスケジューリングの影響を分析し、3つの主要な発見を報告しています。まず、ノイズスケジューリングがモデル性能において重要であり、最適なスケジューリングはタスクによって異なることを示しました。次に、画像サイズが大きくなるほど、よりノイズの多いスケジューリングが効果的であることを確認しました。最後に、入力データをスケーリングする単純な戦略が、さまざまな画像サイズにおいて有効であることが示されています。これをRecurrent Interface Network(RIN)と組み合わせることで、アップサンプリングなしで1024×1024の高解像度画像を生成できる最先端のモデルを実現しました。
1. なぜ拡散モデルにおいてノイズスケジューリングが重要なのか?
拡散モデルは、次のようにデータにノイズを付加します:
画像サイズが大きくなると、同じノイズレベルでのノイズ除去が簡単になります。これは、データ内の冗長性(例:近接するピクセルの相関)が増え、元の信号を復元しやすくなるためです。そのため、低解像度で最適なスケジュールは高解像度では最適でない可能性があり、適切に調整しないと特定のノイズレベルで訓練不足になることがあります。
引用:https://arxiv.org/pdf/2301.10972
図2: ノイズ付き画像(
拡散モデルに対して2つのノイズスケジュール戦略が検討されています。
最初の戦略は、ノイズスケジュールをコサインやシグモイド関数などの1次元関数でパラメータ化する方法です。さらに、
アルゴリズム1ではこれらの関数の実装が示され、図3では異なるハイパーパラメータによるノイズスケジュールと対応するlogSNRが視覚化されています。コサインとシグモイド関数はいずれも多様なノイズ分布を生成でき、ノイズの多いレベルに傾ける設定が効果的であると確認されています。
logSNR(信号対雑音比の対数)は、信号の強さとノイズの強さの比率を表す尺度で、拡散モデルにおいて重要な役割を果たします。SNR(信号対雑音比)は、信号のエネルギーとノイズのエネルギーの比率を示し、次のように定義されます:
logSNRは、このSNRの対数を取ったものです:
logSNRが高い場合、信号の強さがノイズに対して優位であることを意味し、低い場合はノイズが信号に対して優位であることを示します。拡散モデルでは、logSNRがモデルの性能に影響を与えるため、ノイズスケジュールを調整する際にこの値を考慮することが重要です。
引用:https://arxiv.org/pdf/2301.10972
ノイズスケジュールを間接的に調整するもう一つの方法として、入力
スケーリング係数
この入力スケーリング戦略は、上記のノイズスケジュール関数
引用:https://arxiv.org/pdf/2301.10972
ここでは、
理論通り組み合わせたノイズスケジュール戦略を拡散モデルの訓練に取り入れています。
訓練時に分散の正規化が使用されている場合、サンプリング時にも同様に使用する必要があります(正規化はノイズ除去ネットワークの最初の層として扱うことができます)。また、
主に、クラス条件付きのImageNet画像生成に関する実験を行い、評価には一般的な手法に従い、50,000サンプルで計算されたFIDとInception Scoreを指標として使用しました。各サンプルはDDPMの1000ステップで生成されています。
モデル仕様は参考に従いましたが、計算コストを抑えるために、より小さなモデルや短い全体訓練ステップを使用しました(256以上の解像度を除く)。その結果、全体的には性能が低下しましたが、ノイズスケジュールの改善により、低解像度(64×64および128×128)では同等の性能を達成し、高解像度(256×256以上)では大幅に優れた結果を得ることができました。
ハイパーパラメータとしては、LAMBオプティマイザを使用し、
引用:https://arxiv.org/pdf/2301.10972
拡散モデルの評価におけるFID(Fréchet Inception Distance)は、生成モデルが生成した画像と実際の画像との類似度を定量的に評価するための指標です。具体的には、生成された画像と実際のデータセットの画像を、事前訓練されたInceptionネットワークを使って特徴ベクトルに変換し、その特徴分布間のFréchet距離(2つの正規分布の間の距離)を計算します。
FIDの計算式は次のようになります:
ここで、
入力スケーリングを1に固定した状態で、コサイン、シグモイド、線形ノイズスケジュール関数を比較した結果、最適なスケジュールは画像の解像度によって異なり、調整が難しいことが示されました。
詳しい結果は論文を参照してください。
ノイズスケジュール関数を固定して入力スケーリングを調整したところ、画像解像度が高くなるほど最適なスケーリング係数は小さくなり、性能が向上することが分かりました。また、スケーリング係数のみを調整する方が、ノイズスケジュールを変更するよりも調整が簡単で、効果的であることが確認されました。
シンプルな複合ノイズスケジュール戦略とRINを組み合わせることで、ピクセルベースの拡散モデルによる高解像度画像生成において最先端の結果が得られました。これは、潜在拡散モデルと異なるアプローチであり、最先端のGANと比べても有効であることが示されています。
512×512の解像度の画像生成で、分類器フリーのガイダンスによりサンプルの品質が向上し、さまざまな解像度で構造がよく保持されていることが確認されました。結論として、ノイズスケジュール戦略は拡散モデルにおいて重要であり、特に新しいタスクやデータセットに対して適切なスケジュールを選ぶことが大切です。
© 2024, blueqat Inc. All rights reserved