본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Computer Vision6

[2025-1] 이재호 - Diffusion Model Alignment Using Direct Preference Optimization https://arxiv.org/abs/2311.12908 - Bram Wallace et al, CVPR 2023 # Abstract 문제 인식:LLM은 RLHF로 사람의 선호에 맞게 정렬되지만, Diffusion Model은 아직 사람의 선호 학습이 널리 적용되지 않음.기존 접근:Text to image diffusion 모델에서는 고품질 이미지와 캡션으로 미세조정(fine-tuning)하는 방식이 일반적이었음.제안 방법:논문은 Diffusion-DPO라는 새로운 방법을 제안. 이는 **Direct Preference Optimization (DPO)**를 확산 모델에 맞게 변형하여, 사람이 선택한 이미지 쌍을 기반으로 직접 학습함. 1. Introduction 배경:Text-to-image diff.. 2025. 5. 31.
[2025-1] 이재호 - CAT3D: Create Anything in 3D with Multi-View Diffusion Models https://arxiv.org/pdf/2405.10314 - Ruiqi Gao et alNeurIPS 2024 oralProject page: https://cat3d.github.io/ Abstract 기존 3D 재구성 기법은 수백~수천 장의 이미지가 필요함.CAT3D는 multi-view diffusion model을 활용해 이 과정을 시뮬레이션하여 소수의 이미지로도 고품질 3D 뷰 생성 가능.주어진 입력 이미지들과 새로운 뷰포인트(target views)를 기반으로 일관된 novel view 이미지들을 생성.이 view들은 3D 재구성의 입력으로 사용되어, 다양한 시점에서 렌더링 가능한 3D 표현을 실시간으로 생성할 수 있음.CAT3D는 1분 이내에 3D 장면 전체를 생성할 수 있으며, 기존 단.. 2025. 5. 10.
[2025-1] 이재호 - NERF: Representing Scenes as Neural Radiance Fields or View Synthesis https://arxiv.org/pdf/2003.08934  Ben Mildenhall et al, UC Berkeley, Google Research, UC San Diegohttps://www.matthewtancik.com/nerf - 홈페이지  Abstract 연구 개요소개: 복잡한 장면의 새로운 시점을 합성하기 위해 연속적인 볼륨 장면 함수를 최적화하는 방법 제시목적: 희소한 입력 뷰를 사용하여 복잡한 장면의 신규 뷰를 합성알고리즘 설명입력: 5D 좌표(공간 위치 $ x,y,z $ 및  viewing direction $ \theta, \phi $)출력: 해당 공간 위치에서의 부피 밀도와 시청 방향에 따른 방사선합성 방법: 카메라 광선을 따라 5D 좌표를 쿼리하고 클래식 볼륨 렌더링 기술을 이용.. 2025. 3. 15.
[2025-1] 주서영 - Flow matching for generative modeling Flow MatchingICLR 2023850회 인용1. Introduction본 논문은 Continuous Normalizaing Flows(CNF)를 시뮬레이션 없이(simulation-free) 효율적으로 훈련할 수 있는 학습 방법인 Flow Matching (FM)을 제시한다.2. Preliminaries : Continuous Normalizing FlowsNormalizaing Flow : 데이터 분포인 $x$에서 $z$로의 역변환이 가능한 Flow를 학습하는 모델Continuous Normalizing Flows(CNF) : 시간에 따른 vector filed를 학습하여 ODE를 통해 확률 분포를 변환하는 생성 모델$\mathbb{R}^d$데이터 포인트 $x=(x^1,\cdots,x^d)\i.. 2025. 2. 20.