CV149 [2025-1] 박제우 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.org 본 논문은 앞서 리뷰한 CLIP과 FLIP 논.. 2025. 5. 30. [2025-1] 박지원 - Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Intro & Abstract : Clip과 확산 모델의 결합CLIP + Diffusion model의 능력을 결합하여 나온 unclip은, 이미지의 의미와 스타일을 모두 팔로업하는 표현을 학습할 수 있는 CLIP과 이미지와 비디오 생성 작업에서 SOTA를 달성한 바 있는 확산 모델(diffusion)을 결합한 접근 방식이다. 결과적으로 text -> image generation 에 접근하는 모델이 되었다. 2. Method : 2단계 모델 구성 UnCLIP은 text caption이 주어졌을 때 크게 2가지 요소를 가지고 이미지를 생성한다. 하나는 text caption y가 주어졌을 때 Clip 이미지 임베딩을 생성하는 prior model P(zi|y)이고, 두 번째는 CLIP 이미지 임베.. 2025. 5. 30. [2025-1] 전윤경-Oscar: Object-Semantics Aligned Pre-trainingfor Vision-Language Tasks Oscar: 이미지 내에서 탐지된 객체 태그(object tags)를 anchor points로 활용하여 의미 정렬 학습을 크게 용이하게 하는 학습 방법학습 샘플(tuple): 단어 시퀀스(word sequence), 객체 태그 집합(set of object tags), 이미지 영역 특징 집합(set of image region features)650만 쌍으로 구성된 대규모 V+L 데이터셋으로 사전학습7개의 V+L 이해 및 생성 과제에 대해 미세조정 및 평가를 수행 기존 VL 학습 데이터: 이미지-텍스트 쌍기존 VLP방법의 문제점시각 임베딩의 모호성: Faster R-CNN로 과도하게 샘플링된 영역, 중첩weakly-supervised learning : 본질적으로 이미지 내 영역이나 객체와 텍스트.. 2025. 5. 23. [2025-1] 박서형 - PSGAN ( Pedestrian-Synthesis-GAN: GeneratingPedestrian Data in Real Scene and Beyond ) https://arxiv.org/abs/1804.02047 Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and BeyondState-of-the-art pedestrian detection models have achieved great success in many benchmarks. However, these models require lots of annotation information and the labeling process usually takes much time and efforts. In this paper, we propose a method to gearxiv.org 1. Introduction Pedest.. 2025. 5. 17. 이전 1 2 3 4 5 6 7 ··· 38 다음