LCM-LoRAについての巷の記事を見てみる

出たばかりの技術ですが、やはり注目技術で意外と記事が多いです！人気の高さを伺えます。

LCM-LoRA×DiffusersでリアルタイムAIお絵描きを試してみる

https://zenn.dev/aics/articles/3875b6e7f066d3

「LCMが出てきたのは2023/10/6に公表された画像生成の高速化技術で、ものすごく簡潔に説明すると、従来の画像生成AIが複数のステップを踏みながらノイズを徐々に除去して画像生成するところを、一発でノイズ画像から生成結果を出す技術です（実際には、1ステップで生成すると品質の低下が著しいので、少ないステップ数で生成可能、くらいの効果）」

「ただし、このLCMは専用の学習が必要で、既存のStableDiffusionモデルと組み合わせて使うことができませんでした。

この問題を解決したのが、LCM-LoRAとなります。」

いろいろ使い方が書いてありました。

次の記事を見てみます。

LCM とかいう謎の技術を使って高速生成できるようにする（＋拡張機能を作ったよ）

https://note.com/blue_pen5805/n/ndde4facf3d73

こちらも使い方が詳細に書いてありました。すぐ使えるのすごいですよね。

ComfyUI で動かす LCM-LoRA AnimateDiff

https://note.com/te_ftef/n/n4f6e651f25e5

AnimateDiffやUIでの使い方が書いてあります。

Stable Diffusion WebUIでLCM-LoRAを使用する方法を紹介します

https://itdtm.com/stablediffusion-webui-lcmlora/

こちらにも詳細に使った経過が書いてあります。

最後の記事に論文まとめがありました。優秀な人が多くて日本の未来も明るいです。LCMすらきちんと理解できてないので大変助かります。

論文まとめ：LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

https://blog.shikoan.com/lcm-lora/

LCMは構造が今までのDiffusion Modelと違っていそうだったので、LoRAが入れられなさそうだったのが、アダプターを差し込んだということみたいです。

概要がかなりわかりました。LoRAを入れるとカスタマイズできる以上にステップを減らしても高品質を維持できるということで高速化にも効くようです。

元の論文が意外と読みやすそうでしたのでみてみます。

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao

https://arxiv.org/abs/2311.05556

「Latent Consistency Models（LCMs）（Luo et al., 2023）は、テキストから画像への生成タスクにおいて印象的なパフォーマンスを達成しています。これらのモデルは高品質な画像を最小限の推論ステップで生成し、事前訓練された潜在拡散モデル（LDMs）から蒸留され、約32時間のA100 GPUトレーニング時間を必要とします。このレポートでは、LCMsの可能性を2つの側面で拡張しています。まず、LoRA蒸留をStable-Diffusionモデルに適用することにより、SD-V1.5（Rombach et al., 2022）、SSD-1B（Segmind., 2023）、およびSDXL（Podell et al., 2023）など、大きなモデルにLCMsの範囲を広げ、大幅にメモリ消費を削減し、優れた画像生成品質を実現しています。次に、LCM蒸留を通じて得られたLoRAパラメーターを、Stable-Diffusionアクセラレーションモジュールとして認識し、これをLCM-LoRAと名付けました。LCM-LoRAは、さまざまなStable-Diffusion微調整モデルやLoRAsにトレーニングなしで直接接続できるため、多様な画像生成タスクに対する汎用的なアクセラレーターとして機能します。以前の数値PF-ODEソルバー（例：DDIM（Song et al., 2020）、DPM-Solver（Lu et al., 2022a;b））と比較して、LCM-LoRAは強力な一般化能力を持つプラグイン型のニューラルPF-ODEソルバーと見なすことができます。」

！！！！！！！！なんか思ったよりも頭が良さそうなシステムです。

引用：https://arxiv.org/pdf/2311.05556.pdf

図1：LCM-LoRAの概要。LCMの蒸留プロセスにLoRAを導入することで、蒸留時のメモリオーバーヘッドを大幅に削減し、限られたリソースでより大きなモデル（例：SDXL、SSD-1B）をトレーニングすることができます。さらに重要なことは、LCM-LoRAトレーニングを通じて得られるLoRAパラメータ（「加速ベクトル」）は、特定のスタイルのデータセットに微調整することで得られる他のLoRAパラメータ（「スタイルベクトル」）と直接組み合わせることができるということです。トレーニングなしで、加速ベクトルとスタイルベクトルの線形組み合わせによって得られるモデルは、最小限のサンプリングステップで特定の絵画スタイルの画像を生成する能力を獲得します。

なんと！通常の拡散モデルであるLDMのStyle-LoRAのスタイルカスタマイズ性と、LDMを蒸留して作るLCM-LoRAの加速性を組み合わせて早くて高品質なカスタムLCMを作れるそうです！

最初から翻訳してみます。

「潜在拡散モデル（LDMs）（Rombach et al., 2022）は、テキストやスケッチなど様々な入力から、高い詳細度と創造性を持つ画像を生成する上で重要な役割を果たしています。これらのモデルは成功していますが、LDM固有の遅い逆サンプリングプロセスがリアルタイムアプリケーションを妨げ、ユーザー体験を損なっています。現在のオープンソースモデルや加速技術は、標準的な消費者向けGPUでのリアルタイム生成へのギャップを埋めるには至っていません。LDMの加速化に関する取り組みは一般的に2つのカテゴリーに分かれます。1つ目は、DDIM（Song et al., 2020）、DPM-Solver（Lu et al., 2022a）、DPM-Solver++（Lu et al., 2022b）などの高度なODEソルバーを使用して生成プロセスを加速するものです。2つ目の戦略は、LDMの機能を合理化するための蒸留です。ODEソルバーの方法は、推論ステップの数を減らしますが、特に分類器フリーガイダンス（Ho & Salimans, 2022）を組み込む場合、依然として大きな計算オーバーヘッドを要求します。一方、Guided-Distill（Meng et al., 2023）などの蒸留方法は有望ではありますが、その集中的な計算要件のために実用的な制約に直面しています。LDMによって生成された画像のスピードと品質のバランスを見つけることは、この分野における継続的な課題です。」

意外とODEソルバーベースの加速性が昔から研究されていて意外でした。

「最近、画像生成における遅いサンプリング問題の解決策として、Consistency Models（CMs）（Song et al., 2023）に触発されたLatent Consistency Models（LCMs）（Luo et al., 2023）が登場しました。LCMsは逆拡散プロセスを拡張確率フローODE（PF-ODE）問題として扱い、革新的に潜在空間における解を予測することで、数値ODEソルバーを用いた反復的な解法の必要性を迂回します。これにより、わずか1～4の推論ステップで高解像度の画像を効率的に合成することが可能となります。さらに、LCMsは蒸留効率においても優れており、最小ステップ推論のためにはわずか32時間のA100トレーニングが必要です。」

「これを踏まえ、Latent Consistency Finetuning（LCF）（Luo et al., 2023）が開発されました。これは、教師拡散モデルから始めることなく、事前訓練されたLCMsを微調整する方法です。アニメ、フォトリアリスティック、ファンタジー画像など特殊なデータセットには、事前訓練されたLDMをLCMに蒸留するためのLatent Consistency Distillation（LCD）（Luo et al., 2023）を使用したり、LCFを用いてLCMを直接微調整するなど、追加のステップが必要です。しかし、この追加トレーニングは、多様なデータセットでLCMsを迅速に展開する障壁となり、カスタムデータセット上での迅速かつトレーニング不要な推論が達成可能かどうかという重要な問題を提起しています。」

LCMとファインチューニングについて言及されていますね。

「上記の問いに答えるために、LCM-LoRAを紹介します。これは、ユニバーサルなトレーニングフリー加速モジュールであり、様々なStable-Diffusion（SD）（Rombach et al., 2022）微調整モデルやSD LoRAs（Hu et al., 2021）に直接組み込むことで、最小限のステップでの高速推論をサポートします。以前の数値確率フローODE（PF-ODE）ソルバー（例：DDIM（Song et al., 2020）、DPM-Solver（Lu et al., 2022a）、DPM-Solver++（Lu et al., 2022b））と比較して、LCM-LoRAは、ニューラルネットワークに基づく新しいクラスのPF-ODEソルバーモジュールを代表しています。これは、さまざまな微調整されたSDモデルやLoRAsにわたって堅牢な一般化能力を示しています。」

とりあえずLoRAがいい感じで使えるようです。

「特定のタスク指向アプリケーションのためにカスタマイズされたデータセットで微調整することもできます。現在、選択と利用のための幅広い微調整パラメータが利用可能です。私たちは、LCM-LoRAパラメータを、特定のスタイルのデータセットで微調整された他のLoRAパラメータと直接組み合わせることができることを発見しました。このような融合は、さらなるトレーニングなしで、最小限のサンプリングステップで特定のスタイルの画像を生成する能力を持つモデルを生み出します。」

加速とスタイルの両立が可能みたいです。

図3: 特定のスタイルのLoRAパラメータとLCM-LoRAパラメータとの組み合わせによる生成結果。基本モデルとしてSDXLを使用します。すべての画像は1024×1024解像度です。特定の絵画スタイルのデータセットで微調整されたLoRAパラメータを選択し、それらをLCM-LoRAパラメータと組み合わせます。これらのモデルによって生成された画像の品質を、異なるサンプリングステップで比較します。元のLoRAパラメータには、DPM-Solver++（Lu et al., 2022b）サンプラーと分類器フリーガイダンススケールω = 7.5を使用します。特定のスタイルのLoRAとLCM-LoRAを組み合わせた後に得られたパラメータには、LCMのマルチステップサンプラーを使用します。組み合わせにはλ1 = 0.8とλ2 = 1.0を使用します。

僕の理解力が追いつかず、どのタイミングでLoRAを統合しているのかが読みきれませんでした、引き続きLCM理論から読み解くのと実装を見てより理解を深めたいと思います。

以上です。

LCM-LoRAについての巷の記事を見てみる

Yuichiro Minato