CLIPの巷の記事を見る

CLIPが気になりますよね。調べます。

全体的に物凄く有用でヘビーな予感がするテーマです。

元のブログ記事がものすごく役立ちそうでした。

CLIP: Connecting text and images

https://openai.com/research/clip

CLIP：言語と画像のマルチモーダル基盤モデル

https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/

「CLIPの基本的なアイデアは，言語情報（テキスト）とペアになっている画像の対照学習によって，よい言語と画像の表現（embedding）を学習する点にあります」

これが基本みたいです。

「個人的にCLIPがなかなか良いと思っているのは，一回作った分類器の出力結果を見て，失敗しているケースに関する分析をもとに，テキストの方を変更することでモデルの再学習なしに分類結果を変更できるところです。」

一番最初に解説にできてましたが、初級から中級くらいの説明だったと思います。ロボティクスへの応用にも言及されていました。

次を見てみます。

CLIP : 超大規模データセットで事前学習され、再学習なしで任意の物体を識別できる物体識別モデル

https://medium.com/axinc/clip-%E8%B6%85%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%81%A7%E4%BA%8B%E5%89%8D%E5%AD%A6%E7%BF%92%E3%81%95%E3%82%8C-%E5%86%8D%E5%AD%A6%E7%BF%92%E3%81%AA%E3%81%97%E3%81%A7%E4%BB%BB%E6%84%8F%E3%81%AE%E7%89%A9%E4%BD%93%E3%82%92%E8%AD%98%E5%88%A5%E3%81%A7%E3%81%8D%E3%82%8B%E7%89%A9%E4%BD%93%E8%AD%98%E5%88%A5%E3%83%A2%E3%83%87%E3%83%AB-2ebc5c1666f

こちらもとてもわかりやすいです。

「通常のImage Classificationでは、ImageNetで公開された1000カテゴリから物体を識別しますが、CLIPはWEB上の4億枚という膨大な画像と対応するテキストデータで学習されており、再学習不要で、ImageNetに含まれていない任意のカテゴリで物体識別を行うことが可能です。」

「画像をCLIP Image Encoderに入力すると、512次元の特徴ベクトルを取得可能です。同様にテキストをCLIP Text Encoderに入力すると、512次元の特徴ベクトルを取得可能です。

例えば、ある画像が”cat”か”dog”かを判定したい場合、画像のImage Encoderの特徴ベクトルと、”cat”のText Encoderの特徴ベクトルの内積、”dog”のText Encoderの特徴ベクトルの内積を計算し、距離が近いラベルを正解とします。

そのため、画像の特徴ベクトルを事前に計算しておき、データベースに格納しておくことで、任意のラベルで検索が可能です。」

これは便利ですね。画像とテキストの特徴ベクトル同士を突き合わせて距離を計算することで使えるようです。

「通常のImage Modelsは入力された画像に対してFeature Extractorで特徴抽出を行い、Liner Classifierでラベルを予測します。

CLIPは、Image EncoderとText Encoderを組み合わせて学習を行います。学習データは、(image, text)のバッチとなります。画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が、正しい組み合わせでは1、間違った組み合わせでは0となるように学習を行います。」

通常私たちが画像認識をする際には、データとラベルのセットにして、入力画像の特徴抽出に対してラベルを突き合わせるので答えが1:1になりますね。今回のは画像エンコーダーとテキストエンコーダーをセットにして計算するので、ラベルが一意的にならないんですね。

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

https://arxiv.org/abs/2103.00020