本文將簡介 Contrastive Language-Image Pre-training (CLIP) 的文章 [1],目的是同時利用文字描述以及圖片來訓練一個模型,並且讓此模型能實現 zero-shot transfer,也就是在沒看過 dataset 的情況下也一樣能夠辨識圖片中的內容。
本文的主要概念如下:
- 訓練的 dataset 包含了圖片與其對應的一段文字;文章中用的 WebImageText dataset 共有 400M 張圖片及對應文字。
- 訓練時用 contrastive 的方法,分別訓練文字與圖片的 encoder,再用 contrastive loss 當成 loss function。
- 在 inference 時,假設目標是 image classification,則用此文字 "A photo of a {object}" 分別填入可能的分類、送入 encoder,利用與 image encoder 的內積找出最有可能的圖片分類。
此模型雖然很厲害,但仍然有一些不足的地方,可以參考資料 [2]。
參考資料
[1] Learning Transferable Visual Models From Natural Language Supervision
沒有留言:
張貼留言