[論文解説]LoRA：大規模言語モデルにおける低ランクアダプター

有名な論文を読んでみました。

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

Edward Hu∗ Yelong Shen∗ Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen

Microsoft Corporation

量子計算でテンソルを学ぶと機械学習もやりたくなりますね。今回は有名なLoRAです。低ランク近似で機械学習や量子計算でもお馴染みですね。

大規模な機械学習モデルを学習させようとすると、事前学習モデルと呼ばれる十分に学習されたモデルをファインチューニングと呼ばれる重みを変更するようなチューニングを行う必要がありますが、これには非常に時間がかかるため、代わりとなるような方法が模索されています。転移学習のように後段にパラメーターを追加するのもあると思いますが、今回はそれとは異なってより簡単にモデルを変更できるようなものを紹介してるようです。

後段に層を追加するようなものは推論時の遅延を招いたり、基本的にはベースとなるモデルの性能を上回るのが難しいという問題もあるようです。そこで下記の論文のアイデアをベースとしてdense layerを置き換えるような手法がLoRAとして提案されています（これらは別の機会に読んでみようと思います）。

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta

https://arxiv.org/abs/2012.13255

Measuring the Intrinsic Dimension of Objective Landscapes

Chunyuan Li, Heerad Farkhoor, Rosanne Liu, Jason Yosinski

https://arxiv.org/abs/1804.08838

探してみたらいろんな日本語の解説サイトがあったのであまり詳しくは触れないことにしました。。。

LoRA: Low-Rank Adaptaion of Large Language Models の解説

https://zenn.dev/fusic/articles/paper-reading-lora

[輪講資料] LoRA: Low-Rank Adaptation of Large Language Models

https://speakerdeck.com/hpprc/lun-jiang-zi-liao-lora-low-rank-adaptation-of-large-language-models