common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

MPMを調べる

Yuichiro Minato

2023/11/29 09:55

“非英語”をマルチモーダル学習するための手法「MPM」 中国の研究者らが開発

https://www.techno-edge.net/article/2023/08/28/1808.html

「最近、画像とテキストを組み合わせたマルチモーダル学習に対する関心が高まってきましたが、成功している例は主に英語に限られており、他の言語はそれに比べて取り組みが遅れています。この遅れの主な理由は、大量の画像とテキストのペアデータが必要であるにも関わらず、非英語のマルチモーダルデータが不足しているためです。

本研究では、データが少ない言語でも効果的に大規模なマルチモーダルモデルを訓練する新しい方法「MPM」を提案しています。MPMは、多言語モデルを活用し、言語間のマルチモーダル学習をゼロショット(事前情報なしで)可能にするものです。」

論文

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

Jinyi Hu, Yuan Yao, Chongyi Wang, Shan Wang, Yinxu Pan, Qianyu Chen, Tianyu Yu, Hanghao Wu, Yue Zhao, Haoye Zhang, Xu Han, Yankai Lin, Jiao Xue, Dahai Li, Zhiyuan Liu, Maosong Sun

https://arxiv.org/abs/2308.12038v1

「最近、多様なモダリティを学習する分野で、画像からテキストへの変換やテキストから画像への生成に関して顕著な成果がありました。しかし、この成功は通常、英語に制限されており、他の言語は大きく取り残されています。他の言語における競争力のある相当物を構築することは、非英語の多様なモダリティデータ(つまり、大規模で高品質な画像テキストデータが不足していること)の低リソース性に起因して非常に難しい課題です。

この研究では、MPMという効果的なトレーニングパラダイムを提案し、低リソースの言語で大規模な多様なモデルをトレーニングする方法を示しています。MPMは、多言語モデルが他の言語間でゼロショットの多様なモダリティ学習を実現できることを示しています。具体的には、強力な多言語の大規模言語モデルを基に、英語のみの画像テキストデータで事前トレーニングされた多様なモダリティモデルは、ゼロショットの方法で他の言語に対して画像からテキストおよびテキストから画像の生成に対しても十分に汎用化でき、ネイティブ言語の画像テキストデータでトレーニングされたモデルを上回ることさえあります。

MPMの実践として、中国語を取り上げ、画像からテキストへの生成とテキストから画像への生成の両方で大規模な多様なモデルVISCPMを構築し、中国語において最先端の(オープンソースの)性能を実現しました。将来の研究を支援するために、コードとモデルの重みをhttps://github.com/OpenBMB/VisCPMでオープンソースで提供しています。」

なので、日本語に関しても同様の、英語のデータをベースにそれを他の言語に応用するという手順で、直接日本語を学ばなくてもいけるということですね。

引用:https://arxiv.org/pdf/2308.12038v1.pdf

図1: MPMおよびVISCPMのアーキテクチャの概要。

「この課題に対処するために、非英語圏の大規模な多様なモデルの効果的なトレーニングパラダイムであるMPMを提案します。MPMは、Multilingual言語モデルを使用して、言語間のMultimodal学習を調整し、多くのMultimodalデータリソースを含む英語を、視覚信号と非英語の言語との間の枢軸として考えます。英語は一般的にMultimodalデータが不足している非英語の言語と視覚セマンティクスを効果的に整列させるのに役立ちます。MPMは、Bilingual Dual-coding Theory [12, 39] からのインスピレーションを得ており、視覚セマンティクスは主に言語に依存しないと主張しています。直感的には、多言語学習者は確立されたMultimodalおよびMultilingualの整列に基づいて、視覚セマンティクスを新たに習得した言語と効果的に整列させることができます。人間の学習プロセスをシミュレートするように、MPMは非英語のMultimodal学習を2つの連続したステージに分けます:Multilingual整列とMultimodal整列。前者はMultilingualモデルを構築することに焦点を当て、後者は複数の言語にまたがるMultimodalモデルに収束します。」

どうやら英語を介して性能を上げるようです。

「要約すると、この論文の貢献は以下のとおりです:

(i) 低リソース言語でMultimodalリソースが不足している言語向けに特別に設計された効果的なトレーニングパラダイムであるMPMを提案します。世界中の研究者はMPMを利用して、英語から各自の言語に進化した高度なMultimodal学習方法を迅速に適応させることができます。

(ii) 我々は、MPMの実用的な応用として、一連の中国語の大規模MultimodalモデルVISCPMを開発し、オープンソースの中国語Multimodalモデルの中で最先端のパフォーマンスを達成しました。

(iii) VISCPMのモデル重みをオープンソース化し、実験の詳細を提供し、研究者仲間にとって貴重な参照となります。

(iv) VISCPMの多言語での汎化能力を検証し、6つの言語を対象とする初の多言語Multimodal会話モデルを開発しました。」

「MPMの実践として、VISCPMと呼ばれる大規模な中国語Multimodalモデルの一連を開発します。対象言語として中国語、枢軸言語として英語を使用します。中国語-英語バイリンガル言語モデルCPM-Bee [66] がバックボーンのマルチリンガル言語モデルとして機能します。モデルにはVISCPM-Chat(画像からテキストのMultimodal対話用)とVISCPM-Paint(テキストから画像の合成用)の2つのバリエーションがあります。以下のセクションでは、中国語の既存のMultimodalデータセットの概要を提供し、VISCPM-ChatとVISCPM-Paintのトレーニング手順を紹介します。」

ということで、英語を軸にした新しい非英語圏のためのマルチモーダルプラットフォームでした。英語を軸にそのデータを使って性能を効率的に伸ばすということで、日本語にも応用できそうですね。以上です。

© 2025, blueqat Inc. All rights reserved