人が話す声とやり取りする大規模言語モデル「LLaSM」
https://www.techno-edge.net/article/2023/09/04/1842.html#LLaSM
「人々が普段話す言葉には、意味だけでなく、イントネーションや抑揚など、多くの情報が含まれています。そのため、人間とAIとの対話においては、テキストよりも音声がより自然で理解しやすいと言えます。とはいえ、現在の大半の大規模言語モデルはテキスト入力のみに対応しています。
この課題に対処するために新しいAIモデル「LLaSM」が開発されました。LLaSMは音声とテキストの両方の指示に対応することができます。
特に、音声信号をエンコードするために「Whisper」という技術を採用しています。この技術によって、音声データは言語モデルが理解できる形式に変換されます。この音声エンコーディングとテキストエンコーディングを効果的に組み合わせることで、モデルは音声でもテキストでも指示を理解し、実行できます。
音声とテキストの指示に対応するためのデータセットはまだ少ない状態ですが、LLaSMの開発チームは独自の大規模データセット「LLaSM-Audio-Instructions」を構築しました。このデータセットは、英語と中国語の両方の音声サンプルを含み、クロスモーダルな指示に対応するための最大規模のデータセットとされています。」
プロジェクトページ
https://huggingface.co/spaces/LinkSoul/LLaSM
LLaSM: Large Language and Speech Model
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
https://arxiv.org/abs/2308.15930
「最近、多くのマルチモーダル大規模言語モデルが大きな注目を集めています。しかし、ほとんどの研究は、ビジョンと言語を組み合わせた多モーダルモデルに焦点を当て、ビジョンと言語の指示に従う強力な能力を提供しています。しかし、我々は音声も人間が世界と対話する重要なモダリティであると主張します。したがって、汎用アシスタントが多モーダルな音声と言語の指示に従えることは非常に重要です。この研究では、大規模な言語と音声モデル(LLaSM)を提案しています。LLaSMは、クロスモーダルな会話能力を持つ、音声と言語の指示に従える大規模な多モーダル音声言語モデルで、エンドツーエンドでトレーニングされています。初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示すことが示されています。具体的には、LLaSM-Audio-Instructionsという大規模な音声指示に従うデータセットも公開しています。」
こちらもマルチモーダルですね。
引用:https://arxiv.org/pdf/2308.15930.pdf
モデル
「マルチモーダルモデルのトレーニングの焦点は、マルチモーダリティの相補情報を統合し、トレーニング済みの大規模言語モデルの能力を効果的に活用することです。LLaSMモデルのアーキテクチャは図1に示されています。まず、Whisper [14]を使用して生の音声データをエンベッドにエンコードし、次に、モーダルアダプタがプレトレーニング段階でトレーニングされ、音声のエンベッドとテキストのエンベッドを整列させます。音声のエンベッドとテキストのエンベッドは連結され、交互に入力シーケンスを形成して大規模言語モデルに入力されます。私たちは、中国語と英語の両方での能力を持つChinese-LLAMA2-7B [23]をLLMとして選択しました。クロスモーダルインストラクションファインチューニングステージでは、モーダルアダプタとLLMがマルチタスクでトレーニングされます。」
マルチモーダルの戦略はどれも似たようなものが多いですね。どの程度の深さでどのモデルを組み合わせるかでいろんな論文がありました。どれが残るのかを注意深く見たいと思います。