본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Computer Vision127

[2025-1] 최민서 - SDEDIT: Guided Image Synthesis and Editing with Stochastic Differential Equations [논문링크] https://arxiv.org/abs/2108.01073 SDEdit: Guided Image Synthesis and Editing with Stochastic Differential EquationsGuided image synthesis enables everyday users to create and edit photo-realistic images with minimum effort. The key challenge is balancing faithfulness to the user input (e.g., hand-drawn colored strokes) and realism of the synthesized image. Existing GANarxiv.org SDE Diffusi.. 2025. 6. 24.
[2025-1] 황징아이 - Convolutional Character Networks 논문 : https://arxiv.org/abs/1910.07954 Convolutional Character NetworksRecent progress has been made on developing a unified framework for joint text detection and recognition in natural images, but existing joint models were mostly built on two-stage framework by involving ROI pooling, which can degrade the performance on rearxiv.org 1. Introduction기존 Text Reading 모델은 2단계를 거친다텍스트 검출 (Text Detect.. 2025. 5. 31.
[2025-1] 박제우 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.org 본 논문은 앞서 리뷰한 CLIP과 FLIP 논.. 2025. 5. 30.
[2025-1] 박지원 - Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Intro & Abstract : Clip과 확산 모델의 결합CLIP + Diffusion model의 능력을 결합하여 나온 unclip은, 이미지의 의미와 스타일을 모두 팔로업하는 표현을 학습할 수 있는 CLIP과 이미지와 비디오 생성 작업에서 SOTA를 달성한 바 있는 확산 모델(diffusion)을 결합한 접근 방식이다. 결과적으로 text -> image generation 에 접근하는 모델이 되었다. 2. Method : 2단계 모델 구성 UnCLIP은 text caption이 주어졌을 때 크게 2가지 요소를 가지고 이미지를 생성한다. 하나는 text caption y가 주어졌을 때 Clip 이미지 임베딩을 생성하는 prior model P(zi|y)이고, 두 번째는 CLIP 이미지 임베.. 2025. 5. 30.