clip1 [2026-1] 김지원 - Learning Transferable Visual Models From Natural Language Supervision 논문: Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)저자: Alec Radford, Jong Wook Kim, Chris Hallacy, et al.링크: arXiv | GitHub 들어가며 기존의 이미지 분류 모델(ResNet, EfficientNet 등)은 미리 정의된 클래스 집합 안에서만 예측이 가능함. ImageNet으로 학습된 모델은 1,000개의 클래스만 알며, 새로운 클래스를 추가하려면 또 다시 대규모의 라벨링 데이터가 요구됨. 이러한 제약된 형태의 지도 학습은 모델의 일반화 능력과 활용성을 크게 제한함. CLIP(Contrastive Language-Image Pre-training) .. 2026. 4. 18. 이전 1 다음