休日の学習：「MNISTとCIFAR-10で潜在空間拡散生成──軽量U-Net実装で高速・高効率な画像生成」

近年の拡散モデルは高品質な画像生成が可能ですが、その計算コストは依然として大きく、特に高解像度データセットでは学習・生成の負担が課題になります。そこで今回は、MNISTとCIFAR-10の2つのデータセットを題材に、潜在空間（latent space）で拡散処理を行う軽量U-Net実装を試してみました。

潜在空間を使う理由

通常の拡散モデルはピクセル空間で直接ノイズ除去を学習しますが、潜在空間を経由することで次のようなメリットがあります。

計算量の大幅削減（解像度が下がるため演算コストが減る）
学習速度の向上（小さなU-Netで処理可能）
モデルサイズの縮小（低リソース環境にも対応しやすい）

PCAによる潜在空間比較（VAEなし）

実験の第一歩として、まずはVAEを使わずに画像をPCAで二次元圧縮し、その潜在空間を直接DDPMで学習させてみました。
この方法では、元データ（例：MNIST）をPCAで2次元の潜在ベクトルに変換し、その分布を拡散モデルで再現します。

学習後、生成された潜在分布を元のPCA潜在と比較すると、実データはクラスごとに偏りや非対称性を持った複雑な形状をしている一方、DDPMの生成結果はほぼガウス分布に近く、全体的に中心へ集まった形になりました。
これはモデルの学習容量や学習ステップ数の影響が大きく、短時間学習では分布の細部まで再現するのが難しいことを示しています。

この比較により、潜在空間生成の基礎挙動をシンプルな形で確認でき、以降のVAE＋潜在拡散実験に向けた有用なベースラインとなりました。