Computer Vision127 [2025-1] 전윤경-Oscar: Object-Semantics Aligned Pre-trainingfor Vision-Language Tasks Oscar: 이미지 내에서 탐지된 객체 태그(object tags)를 anchor points로 활용하여 의미 정렬 학습을 크게 용이하게 하는 학습 방법학습 샘플(tuple): 단어 시퀀스(word sequence), 객체 태그 집합(set of object tags), 이미지 영역 특징 집합(set of image region features)650만 쌍으로 구성된 대규모 V+L 데이터셋으로 사전학습7개의 V+L 이해 및 생성 과제에 대해 미세조정 및 평가를 수행 기존 VL 학습 데이터: 이미지-텍스트 쌍기존 VLP방법의 문제점시각 임베딩의 모호성: Faster R-CNN로 과도하게 샘플링된 영역, 중첩weakly-supervised learning : 본질적으로 이미지 내 영역이나 객체와 텍스트.. 2025. 5. 23. [2025-1] 유경석 - FlexiViT: One Model for All Patch Sizes https://arxiv.org/pdf/2212.08013https://github.com/google-research/big_vision GitHub - google-research/big_vision: Official codebase used to develop Vision Transformer, SigLIP, MLP-Mixer, LiT and more.Official codebase used to develop Vision Transformer, SigLIP, MLP-Mixer, LiT and more. - google-research/big_visiongithub.comAbstractViT의 patch size는 speed와 accuracy를 결정하는 인자이지만, patch size를 변경하는 것.. 2025. 5. 17. [2025-1] 전연주 - VAE: Auto-Encoding Variational Bayes 논문 링크: 1312.6114코드 링크: 2025-OUTTA-Gen-AI/Reviews/Diffusion/Auto-Encoding Variational Bayes.ipynb at 1b4ef8a85c6d5b0d0cacea47ed0ef1a39f843be7 · youngunghan/2025-OUTTA-Gen-AI1. Introduction 연속적인 latent variable 또는 parameter를 포함한 directed probabilistic model(방향성을 갖는 확률 그래프 모델로 latent variable z와 observed data x 사이의 관계를 정의 → generative process를 모델링하는 방식)에서는, 특정 관측값에 대한 posterior 분포 $p(z \mid x)$를 계산.. 2025. 5. 17. [2025-1] 김유현 - Progressive Growing of GAN https://arxiv.org/abs/1710.10196 Progressive Growing of GANs for Improved Quality, Stability, and VariationWe describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training prograrxiv.org 0. Abstract논문에서는 Prgressi.. 2025. 5. 17. 이전 1 2 3 4 5 ··· 32 다음