Computer Vision1 [2024-1] 한영웅 - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation, CVPR 2023, Google Research, Boston University Abstract대규모 텍스트-이미지 모델은 주어진 참조 세트(reference set)에서 객체의 모양을 모방하고 다양한 맥락에서 새로운 표현을 합성하는 능력이 부족. 이에 저자들은 텍스트-이미지의 "개인화"(“personalization”)를 위한 새로운 접근 방식을 제시. 객체에 대한 몇 개의 이미지만 입력으로 주어지면 사전 훈련된 텍스트-이미지 디퓨젼 모델(DM)을 파인튜닝하여 해당 특정 객체와 고유 식별자를 바인딩하는 방법을 학습. 고유 식별자를 사용하여 다양한 장면에서 그 객체의 새로운 실제 같은 이미지를 합성할 수 있음. 새로운 자동 클래스별 사전 보존 손실 (autogenous class-specific prior preservation loss)과 새로운 데이터 세트 및 평가 프로토콜 (e.. 2024. 5. 29. 이전 1 다음