CV160 [2025-1] 박지원 - Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Intro & Abstract : Clip과 확산 모델의 결합CLIP + Diffusion model의 능력을 결합하여 나온 unclip은, 이미지의 의미와 스타일을 모두 팔로업하는 표현을 학습할 수 있는 CLIP과 이미지와 비디오 생성 작업에서 SOTA를 달성한 바 있는 확산 모델(diffusion)을 결합한 접근 방식이다. 결과적으로 text -> image generation 에 접근하는 모델이 되었다. 2. Method : 2단계 모델 구성 UnCLIP은 text caption이 주어졌을 때 크게 2가지 요소를 가지고 이미지를 생성한다. 하나는 text caption y가 주어졌을 때 Clip 이미지 임베딩을 생성하는 prior model P(zi|y)이고, 두 번째는 CLIP 이미지 임베.. 2025. 5. 30. [2025-1] 전윤경-Oscar: Object-Semantics Aligned Pre-trainingfor Vision-Language Tasks Oscar: 이미지 내에서 탐지된 객체 태그(object tags)를 anchor points로 활용하여 의미 정렬 학습을 크게 용이하게 하는 학습 방법학습 샘플(tuple): 단어 시퀀스(word sequence), 객체 태그 집합(set of object tags), 이미지 영역 특징 집합(set of image region features)650만 쌍으로 구성된 대규모 V+L 데이터셋으로 사전학습7개의 V+L 이해 및 생성 과제에 대해 미세조정 및 평가를 수행 기존 VL 학습 데이터: 이미지-텍스트 쌍기존 VLP방법의 문제점시각 임베딩의 모호성: Faster R-CNN로 과도하게 샘플링된 영역, 중첩weakly-supervised learning : 본질적으로 이미지 내 영역이나 객체와 텍스트.. 2025. 5. 23. [2025-1] 박서형 - PSGAN ( Pedestrian-Synthesis-GAN: GeneratingPedestrian Data in Real Scene and Beyond ) https://arxiv.org/abs/1804.02047 Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and BeyondState-of-the-art pedestrian detection models have achieved great success in many benchmarks. However, these models require lots of annotation information and the labeling process usually takes much time and efforts. In this paper, we propose a method to gearxiv.org 1. Introduction Pedest.. 2025. 5. 17. [2025-1] 임재열- DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection DRAEM은 2021 ICCV에서 발표된 복원-원본 이미지 쌍을 활용해 anomaly detection을 학습하는 새로운 unsupervised 모델을 제안하는 논문입니다. [DRAEM]https://arxiv.org/abs/2108.07610 DRAEM -- A discriminatively trained reconstruction embedding for surface anomaly detectionVisual surface anomaly detection aims to detect local image regions that significantly deviate from normal appearance. Recent surface anomaly detection methods rely on .. 2025. 5. 17. 이전 1 ··· 4 5 6 7 8 9 10 ··· 40 다음