Brain2Musicを調べてみた

脳活動から音楽を生成するAI「Brain2Music」　Googleや阪大などの研究者らが開発

https://www.techno-edge.net/article/2023/07/24/1634.html#brain2music

「本研究では、音楽を聴いているときに観察される人間の脳活動から音楽を再構成する方法「Brain2Music」を提案します。この手法では、まず機能的磁気共鳴画像法（fMRI）を使って脳活動を取得します。ユーザーがヘッドフォンで音楽を聴いている間に記録されたfMRI信号を活用します。

次に、テキスト記述から音楽を生成できるGoogleの音楽生成モデル「MusicLM」を活用します。研究チームは、人間とMusicLMが同じ音楽を聴くと、MusicLMの内部表現が特定の部位の脳活動と相関することを発見しました。

この知見から、fMRIで得られた脳活動データをMusicLMの入力として活用することで、ユーザーがどのような音楽を聴いたかを予測し、元の音楽に意味レベルで類似した音楽を再構築することが可能となりました。」

プロジェクトページです。

https://google-research.github.io/seanet/brain2music/

Brain2Music: Reconstructing Music from Human Brain Activity

Timo I. Denk, Yu Takagi, Takuya Matsuyama, Andrea Agostinelli, Tomoya Nakai, Christian Frank, Shinji Nishimoto

https://arxiv.org/abs/2307.11078

引用：https://arxiv.org/pdf/2307.11078.pdf

「図：fMRIデコーディングの文脈におけるMusicLM（Agostinelli et al., 2023）の視覚的表現。角の丸い矩形要素は埋め込み/トークンを示し、鋭角のある要素はパラメータを持つモデルです。プロセスは、音楽にさらされた被験者からキャプチャされたfMRI応答から始まります。それは次に、線形回帰を介して128次元のMuLan埋め込みにマッピングされます。MusicLMの最初の段階では、MuLan埋め込みを時間情報を持つw2v-BERTトークンの低レベル表現に精緻化します。次の段階では、前の段階の出力とMuLan埋め込みの両方に基づいて、SoundStreamオーディオコーデック用のトークンを生成します。最後のステップでは、これらはSoundStreamデコーダーを通じて波形に変換されます。」

「MuLan（Huang et al., 2022）は、テキスト用（MuLantext）と音楽用（MuLanmusic）の2つのタワーで構成される共同テキスト/音楽埋め込みモデルです。テキストタワーは、大規模なテキストコーパスで事前に訓練されたBERT（Devlin et al., 2019）モデルです。オーディオタワーにはResNet-50（He et al., 2015）の変種を使用しています。MuLanの訓練目的は、音楽とテキストが整合した例のペアごとに各タワーが生成する128次元の埋め込み間のコントラスト損失を最小限にすることです。例えば、ロックソングの波形の埋め込みは、テキストロックミュージックの埋め込みに近く、落ち着いたバイオリンソロからは遠くなることが想定されています。この論文では、MuLan埋め込みと言及する場合、デフォルトでは音楽タワーの埋め込みを意味します。

MusicLM（Agostinelli et al., 2023）は条件付き音楽生成モデルです。条件付けの信号にはテキスト、他の音楽、メロディーなどが含まれますが、これに限定されません。私たちのデコーディングパイプラインでは、MusicLMはfMRI応答に基づいて計算されたMuLan埋め込みに基づいて条件付けされます。図2はMusicLMの構成要素を視覚化しています。音楽は2つの連続したステージで生成されます。最初のステージでは、MuLan埋め込みをw2v-BERTトークンのシーケンスにマッピングすることを学習します。MusicLMで使用されるこれらのトークンは、w2v-BERT（Chung et al., 2021）モデルの第7層での活性化から抽出され、k-meansでクラスタリングされます。」

「MusicLMの第二段階では、第一段階からのw2v-BERTトークンとMuLan埋め込みを音響トークンにマッピングします。これらはSoundStream（Zeghidour et al., 2021a）モデルの残差ベクトル量子化器に由来します。結果得られたトークンはSoundStreamデコーダーを使用してオーディオに戻されます。AudioLM（Borsos et al., 2022）と同様に、第二段階は粗大なモデリングと細かいモデリングの段階に分割されます。これら3つのステージはすべてトランスフォーマーモデルとして実装されています。」

ちょっとオーディオ業界はよくわからないです。

「デコードとは、被験者が晒された元の刺激（この場合は音楽）を、記録された脳活動に基づいて再構築しようとする試みを指します。このプロセスは図1に示されており、(1) fMRIデータに基づいた音楽埋め込みの予測と(2) その埋め込みに基づいた音楽の取得または生成に分割されます。」

「図1：Brain2Musicパイプラインの概要：高次元のfMRI応答は、MuLan（Huang et al., 2022）の128次元音楽埋め込み空間に凝縮されます。その後、音楽生成モデルであるMusicLM（Agostinelli et al., 2023）が条件付けされ、元の刺激に似た音楽の再構築を生成します。また、生成する代わりに大規模なデータベースから音楽を取り出すことも検討しています。」

ちょっとそもそものfMRIを調べてみました。

「磁気共鳴機能画像法（functional magnetic resonance imaging, fMRI）は、MRI装置を使って無害に脳活動を調べる方法です。

MRI装置には磁石の強い力（磁場）が働いていて、中に入った人の頭や体にごく弱い電磁波を当てる仕組みになっています。返ってきた信号を計算することによって、全く人を傷つけないで断面の画像を撮影することが可能です。」

ということで、音楽を聴かせた時の刺激でMRI装置を使った脳の反応から回帰計算をし、パラメータを音楽として埋め込み、音楽生成モデルであるMusicLMを通じて音楽を再構成したというモデルのようでした。

音楽に興味ある人は元の論文をもっとみても良いかと思いました。ちょっと音楽の分野はわからなかったので、これくらいにします。

Brain2Musicを調べてみた

Yuichiro Minato