본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글297

[2025-1] 박지원 - Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Intro & Abstract : Clip과 확산 모델의 결합CLIP + Diffusion model의 능력을 결합하여 나온 unclip은, 이미지의 의미와 스타일을 모두 팔로업하는 표현을 학습할 수 있는 CLIP과 이미지와 비디오 생성 작업에서 SOTA를 달성한 바 있는 확산 모델(diffusion)을 결합한 접근 방식이다. 결과적으로 text -> image generation 에 접근하는 모델이 되었다. 2. Method : 2단계 모델 구성 UnCLIP은 text caption이 주어졌을 때 크게 2가지 요소를 가지고 이미지를 생성한다. 하나는 text caption y가 주어졌을 때 Clip 이미지 임베딩을 생성하는 prior model P(zi|y)이고, 두 번째는 CLIP 이미지 임베.. 2025. 5. 30.
[2025-1] 정유림 - Attention Is All You Need Fig. 1 Transformer의 Encoder-Decoder 구조를 도식화한 것왼쪽은 Encoder, 오른쪽은 Decoderself-attention과 feed-forward 사이사이에 반복적으로 Residual Connection과 Layer Normalization이 들어감. Transformer 블록은 (Self-Attention → Add & Norm → Feed-Forward → Add & Norm) 순서로 구성됨Encoder (왼쪽)Input Embedding:입력 문장(예: 영어)을 각 단어별로 벡터로 변환(임베딩).Positional Encoding:단어의 위치 정보를 반영하기 위해 임베딩에 위치 인코딩을 더함.N개의 인코더 블록 반복: 각 블록(레이어)은 아래와 같은 두 부분으로 구성.. 2025. 5. 29.
[2025-1] 유경석 - nnDetection: A Self-configuring Method for Medical Object Detection https://arxiv.org/abs/2106.00817 nnDetection: A Self-configuring Method for Medical Object DetectionSimultaneous localisation and categorization of objects in medical images, also referred to as medical object detection, is of high clinical relevance because diagnostic decisions often depend on rating of objects rather than e.g. pixels. For this task, tharxiv.orghttps://github.com/MIC-DKFZ/nnDet.. 2025. 5. 24.
[2025-1] 전윤경-Oscar: Object-Semantics Aligned Pre-trainingfor Vision-Language Tasks Oscar: 이미지 내에서 탐지된 객체 태그(object tags)를 anchor points로 활용하여 의미 정렬 학습을 크게 용이하게 하는 학습 방법학습 샘플(tuple): 단어 시퀀스(word sequence), 객체 태그 집합(set of object tags), 이미지 영역 특징 집합(set of image region features)650만 쌍으로 구성된 대규모 V+L 데이터셋으로 사전학습7개의 V+L 이해 및 생성 과제에 대해 미세조정 및 평가를 수행 기존 VL 학습 데이터: 이미지-텍스트 쌍기존 VLP방법의 문제점시각 임베딩의 모호성: Faster R-CNN로 과도하게 샘플링된 영역, 중첩weakly-supervised learning : 본질적으로 이미지 내 영역이나 객체와 텍스트.. 2025. 5. 23.