巷のLatent Consistency Modelに関する記事を見てみた

こんにちは、本日は爆速画像生成AIの新手法です。

機械学習業界は解説記事が非常に豊富で、少しでも解説が遅れると大量の良好な解説記事に埋もれて見つからないことが多いですが、今回は比較的出たばかりの技術みたいで解説記事があまりないかと思いきや、良さそうなものが見つかってしまいました。まずは巷の解説記事からみてみたいと思います。

【Real-Time Latent Consistency Model】リアルタイムで入力したプロンプトがすぐに画像になる高速画像生成AIを使ってみた

https://weel.co.jp/media/real-time-latent-consistency-model

「Real-Time Latent Consistency Modelは、リアルタイムで画像生成をすることができ、ユーザーが入力したプロンプトが反映された画像を逐一出力します。」

瞬時に変わるようで、動画のデモのリンクがありましたが、確かに入力する文字が入力する片っ端からリアルタイムで書き換えられていきます。

仕組みは、

「なぜこれほどまでに高速な画像生成が可能なのかというと、潜在一貫性モデル（LCM）は、時間のすべての点から原点へのマッピングを学習し、1stepまたは数stepで画像を生成することを可能にしているからです。」

どうやら、これまで段階的に生成されてきたモデルは、すべての時間上の点から原点へとマッピングされてるみたいなので瞬時に画像が出るようです。

「このモデルは従来のものに比べて軽量であるため、一般的な家庭用GPUでも十分動くようなので、今回はローカルで動かしてみたいと思います。」

嬉しい言及もありました、今後がワクワクしますね。ものすごいわかりやすい解説でした。

次の記事です。

爆速化する画像生成AI。0.5秒で4枚出力、リアルタイム生成できるレベルに

https://ascii.jp/elem/000/004/168/4168599/

こちらの記事もすごいわかりやすそうです。とにかくハイレベルですごい。

「Stable Diffusionの拡散モデルは（中略）通常、1枚の画像を生み出すのに必要なサンプリングプロセスは約20～30回。」

「これに対してLCMは、ランダムノイズの状態から1ステップで画像を生成」

これだけでわかりやすい。。。

「NVIDIA GeForce RTX 4090の環境で「tokyo」と簡単なプロンプトを書き、512×512ピクセルの画像をステップ「20」の設定で4枚生成したところ、生成にかかった時間はわずか約0.7秒、1秒未満でした。もはや「Run」ボタンを押した瞬間に4枚が出てくるような感覚です。同じ設定で、Stable Diffusion V1.5で生成すると4枚で3.8秒程度。LCMの方が約5倍も速い」

もう１秒未満は爆速ですね。

「image2imageや、ビデオから画像を生成するVideo2Videoに対応することもアナウンスされており、生成速度の圧倒的な速さは特に動画領域での利用が期待」

もう記事が全て言いたいことを言ってしまっているのであまり僕からコメントがありません。。。

「そんななか、11月9日、LCMについて同じくルオ氏が中心となって研究されたさらなるブレイクスルーを起こす論文が発表になりました。「LCM-LoRA」です。」

ついに追加学習モデルですか。Adapterも発表されたことでコミュニティが一気に広がる可能性もあります。まだ機能面では完全ではないと思うので、今後の発展速度に期待です。

まだ今の段階ではたくさんは記事は出ていませんが、こちらの記事は技術的な内容にも触れていそうです。

Latent Consistency Models について

https://note.com/te_ftef/n/n397aa3a43db4

「テキストの条件つけ

確率常微分方程式 (Probability Flow ODE)においてテキスト条件を追加し、この条件に従って潜在変数を予測します。」

「二段階蒸留

Consistency Models の学習は収束が遅いため、二段階の蒸留法が提案されています。しかし、二段階のガイダンス付き蒸留は累積誤差を引き起こすため蒸留プロセスを一段階に減らした手法を取ります。」

まぁ、そうなんでしょうね。

「隣接する時間ステップ間の一貫性を保つのではなく、現在の時間ステップとkステップ離れた時間ステップ間の一貫性を保つことを目指します。」

収束を早くします。

この記事の中で触れられていた技術解説記事

Consistency Models: 1~4stepsで画像が生成できる、新しいスコアベース生成モデル

https://zenn.dev/discus0434/articles/484be111f7862d

「まず、拡散モデルの拡散過程のタイムステップを無限大に増やした場合、逆拡散過程は確率微分方程式（Stochastic Differential Equation）の解で表現することができ、それはProbability Flow ODEと呼ばれる常微分方程式の解としても表現することができる、ということが分かっています」

なんか最初からいい感じですね。この常微分方程式を解くんでしょうか？

「扱う画像が完全なノイズでも、少しだけノイズが乗っているとしても、必ず同じ初期状態（ノイズが全く乗っていない状態）に戻す方法を推定するモデル」

なんかすごい気がしてきました。。。

Progressive DistllationやEDMといったモデルと比較がされていて強力さが強調されていました。

いい感じの記事でした。深掘りしたくなりますね。。。今後はもちょっと数式を追って最新モデルを見てみたいと思います。

巷のLatent Consistency Modelに関する記事を見てみた

Yuichiro Minato