common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

CogVLMを調べる

Yuichiro Minato

2023/11/29 10:05

画像理解を得意とするオープンソース視覚言語モデル「CogVLM」

https://www.techno-edge.net/article/2023/11/13/2247.html#CogVLM

「Visual language model(VLM)は、写真や画像に関する質問に答えたり、写真の説明をしたり、特定の部分を指摘したりするなど、さまざまなタスクに使われます。

しかし、VLMをゼロから訓練することは容易ではありません。特に、言語処理に特化したモデル(例えばLlama 2など)と同等の性能を達成することは難しいとされています。従来の方法では、訓練済みの視覚エンコーダー(写真や画像を解析する部分)と言語モデルを連携させ、写真の特徴を言語モデルが理解できる形に変換します。この方法は比較的早く結果を得ることができますが、視覚情報と言語情報を同時に訓練する方法に比べて性能が劣ることが知られています。

この研究では、大規模言語モデルの言語処理能力を維持しつつ、優れた視覚理解能力を持つオープンソースVLMモデル「CogVLM」を提案します。このモデルの特徴は、画像のデータを特別に処理するためのモジュールをモデルに組み込んでいることです。このモジュールは、画像データの特徴を特化して解析し、その結果を言語モデルと深い部分で統合します。」

すいません、VLMというモデルを知りませんでした。。。

論文

CogVLM: Visual Expert for Pretrained Language Models

Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

https://arxiv.org/abs/2311.03079v1

github

https://github.com/THUDM/CogVLM

引用:https://arxiv.org/pdf/2311.03079v1.pdf

図3:CogVLMのアーキテクチャ。 (a) 入力に関する説明。画像は事前に学習済みのViTによって処理され、テキストの特徴と同じ空間にマッピングされます。 (b) 言語モデル内のTransformerブロック。画像特徴は異なるQKV行列とFFNを持っています。訓練可能な部分は紫色の部分だけです。

アーキテクチャ

「CogVLMモデルは、4つの基本コンポーネントから構成されています:ビジョントランスフォーマ(ViT)エンコーダ、MLPアダプタ、事前学習済みの大規模言語モデル(GPT)、およびビジュアルエキスパートモジュール。各コンポーネントの設計と実装の詳細は以下の通りです。

ViTエンコーダ:CogVLM-17Bでは、事前学習済みのEVA2-CLIP-E(Sun et al., 2023)を使用しています。ViTエンコーダの最終層は削除されています。これはコントラスティブラーニングのために[CLS]フィーチャを集約する専門化された層です。

MLPアダプタ:MLPアダプタは、ViTの出力をワード埋め込みからのテキスト特徴と同じ空間にマップするための2層MLP(SwiGLU(Shazeer、2020))です。すべての画像特徴は、言語モデル内で同じ位置IDを共有しています。

事前学習済み大規模言語モデル:CogVLMのモデル設計は、市販のGPTスタイルの事前学習済み大規模言語モデルと互換性があります。具体的には、CogVLM-17BはVicuna-7Bv1.5(Chiang et al., 2023)をさらにトレーニングに採用しています。attentionマスクは、画像特徴間のアテンションを含むすべてのアテンション操作に適用されています。

ビジュアルエキスパートモジュール:各レイヤにビジュアルエキスパートモジュールを追加し、深いビジュアル言語特徴の整合性を実現します。具体的には、各レイヤのビジュアルエキスパートモジュールは、QKV行列とMLPから構成されています。QKV行列とMLPの形状は、事前学習済み言語モデル内のものと同一で、それから初期化されます。その動機は、言語モデル内の各アテンションヘッドが特定の意味情報の側面を捉える一方、訓練可能なビジュアルエキスパートが画像特徴を異なるヘッドに整合させるための変換を行い、したがって深い融合を実現できるためです。」

ということで、画像と言語の深い融合のために、画像を変換してテキストと統合。Transformerモデルも改造して性能を上げているということです。

© 2025, blueqat Inc. All rights reserved