카테고리 없음

[2025-1] 박서형 - Learning Transferable Visual Models From Natural Language Supervision

ejrwlfgksms skffkddl 2025. 1. 11. 13:47

https://arxiv.org/abs/2103.00020

 

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

 

Clip은 기존의 비전 방식과 다르게 라벨과 이미지 쌍을 학습시키는 게 아니라 raw text와 이미지 쌍을 학습시켜 이미지로 텍스트를 찾거나 텍스트로 이미지를 찾는 등의 task를 잘 수행할 수 있게 한다. 이때 이미지는 비전 모델 (ex, ResNet, Vision Transformer) 등을 통해 임베딩 벡터로 변환하고 텍스트는 언어모델을 통해 독립적으로 임베딩 벡터로 변환시킨다.  이때 대조학습을 통해 같은 의미를 가진 이미지와 텍스트 사이의 코사인 유사도를 극대화하고 의미가 다르면 최소화하는 방향으로 학습을 진행한다. 이러면 이미지 분류,검색, 멀티모달 등 다양한 task에서 응용이 가능하고 zero-shot 학습을 통해 사전에 학습하지 않은 텍스트와 표현들을 처리할 수 있는 확장성과 유연성을 갖추게 된다.

 

 

 

 

 

 

 

1)    Contrastive pre-training

Text text encoder를 통해 벡터로 표현하고 이미지는 image encoder를 통해 벡터 값으로 표현한다. 그리고 나서 텍스트 벡터와 이미지 벡터들 사이의 코사인 유사도를 구한다. 그리고 코사인 유사도를 이용해 cross entropy loss 계산하고 최적화를 진행한다.

이때 본 논문에서는 image encoder resnet-50vision transformer, text enocder로는 transformer를 사용했다.

 

2)    Create dataset classifier from label text  &  3) use for zero-shot prediction

미리 준비된 라벨들을 학습된 text encoder에 넣어 벡터로 변환하고 테스트 하고 싶은 이미지도 학습된 image encoder에 넣어 벡터로 변환시킨 후 코사인 유사도를 계산해 가장 높은 유사도를 가진 라벨을 선택하게 된다. 이러면 미리 학습하지 않은 라벨에 대해서도 예측이 가능한 zero-shot prediction이 가능해진다.

 

 

 

 

Clip 모델은 image encoder와 text encoder를 결합하여 zero-shot prediction을 수행하는 새로운 패러다임을 연 논문으로 큰 상징성을 가진 논문이다. 그러나 몇몇의 task에서는 부진한 성능을 보였다는 한계도 존재한다.