전체 글296 [2025-1] 정유림 - Attention Is All You Need Fig. 1 Transformer의 Encoder-Decoder 구조를 도식화한 것왼쪽은 Encoder, 오른쪽은 Decoderself-attention과 feed-forward 사이사이에 반복적으로 Residual Connection과 Layer Normalization이 들어감. Transformer 블록은 (Self-Attention → Add & Norm → Feed-Forward → Add & Norm) 순서로 구성됨Encoder (왼쪽)Input Embedding:입력 문장(예: 영어)을 각 단어별로 벡터로 변환(임베딩).Positional Encoding:단어의 위치 정보를 반영하기 위해 임베딩에 위치 인코딩을 더함.N개의 인코더 블록 반복: 각 블록(레이어)은 아래와 같은 두 부분으로 구성.. 2025. 5. 29. [2025-1] 유경석 - nnDetection: A Self-configuring Method for Medical Object Detection https://arxiv.org/abs/2106.00817 nnDetection: A Self-configuring Method for Medical Object DetectionSimultaneous localisation and categorization of objects in medical images, also referred to as medical object detection, is of high clinical relevance because diagnostic decisions often depend on rating of objects rather than e.g. pixels. For this task, tharxiv.orghttps://github.com/MIC-DKFZ/nnDet.. 2025. 5. 24. [2025-1] 전윤경-Oscar: Object-Semantics Aligned Pre-trainingfor Vision-Language Tasks Oscar: 이미지 내에서 탐지된 객체 태그(object tags)를 anchor points로 활용하여 의미 정렬 학습을 크게 용이하게 하는 학습 방법학습 샘플(tuple): 단어 시퀀스(word sequence), 객체 태그 집합(set of object tags), 이미지 영역 특징 집합(set of image region features)650만 쌍으로 구성된 대규모 V+L 데이터셋으로 사전학습7개의 V+L 이해 및 생성 과제에 대해 미세조정 및 평가를 수행 기존 VL 학습 데이터: 이미지-텍스트 쌍기존 VLP방법의 문제점시각 임베딩의 모호성: Faster R-CNN로 과도하게 샘플링된 영역, 중첩weakly-supervised learning : 본질적으로 이미지 내 영역이나 객체와 텍스트.. 2025. 5. 23. [2025-1] 박서형 - PSGAN ( Pedestrian-Synthesis-GAN: GeneratingPedestrian Data in Real Scene and Beyond ) https://arxiv.org/abs/1804.02047 Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and BeyondState-of-the-art pedestrian detection models have achieved great success in many benchmarks. However, these models require lots of annotation information and the labeling process usually takes much time and efforts. In this paper, we propose a method to gearxiv.org 1. Introduction Pedest.. 2025. 5. 17. 이전 1 2 3 4 ··· 74 다음