2022年8月15日 星期一

論文筆記:CLIP (Contrastive Language-Image Pre-training) Learning Transferable Visual Models From Natural Language Supervision

本文將簡介 Contrastive Language-Image Pre-training (CLIP) 的文章 [1],目的是同時利用文字描述以及圖片來訓練一個模型,並且讓此模型能實現 zero-shot transfer,也就是在沒看過 dataset 的情況下也一樣能夠辨識圖片中的內容。 

本文的主要概念如下:

CLIP 

  1. 訓練的 dataset 包含了圖片與其對應的一段文字;文章中用的  WebImageText dataset 共有 400M 張圖片及對應文字。
  2. 訓練時用 contrastive 的方法,分別訓練文字與圖片的 encoder,再用 contrastive loss 當成 loss function。
  3. 在 inference 時,假設目標是 image classification,則用此文字 "A photo of a {object}" 分別填入可能的分類、送入 encoder,利用與 image encoder 的內積找出最有可能的圖片分類。

此模型雖然很厲害,但仍然有一些不足的地方,可以參考資料 [2]。

參考資料

[1] Learning Transferable Visual Models From Natural Language Supervision

[2] CLIP 論文逐段精讀【論文精讀】(模型侷限性) 

沒有留言:

張貼留言