분류 전체보기302 [2025-1] 주서영 - Towards Robust Vision Transformer Towards Robust Vision Transformer Towards Robust Vision TransformerRecent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision tasks. However, existing ViTs focus on the standard accuracy and comarxiv.orgCVPR 20222025.01.18 기준 인용 횟수: 226회Introduction기존의 Vision Transform.. 2025. 1. 18. [2025-1] 정성윤 - Very Deep Convolutional Networks for Large scale image recognition https://troubled-popcorn-a03.notion.site/Very-Deep-Convolutional-Networks-for-Large-scale-image-recognition-17e392d1016e80d09e3ee0b24d624822CNN신경 다발(Connection)을 잘 끊어낸다.위치별 특징을 추출함 : 위치의 정보는 유지한 채로 특정 패턴(특징)을 찾는다.모든 픽셀들의 연결 = Connection 3 X (3 X 100 X 100) ⇒ 총 9만개정해진 Weight Set으로 데이터 값들을 긁어낸다.가까이 있는 값들만 연결 → 위치 정보를 잃지 않음 → 담당 노드라는 “의미”가 생김Kernel(Filter) + bias : 스캔을 통해 필터와 비슷한 특징(패턴)을 찾는다(내적)CNN.. 2025. 1. 18. [2025-1] 임재열 - Swin Transformer Swin Transformer는 2021년 Ze Liu 등이 제안한 모델입니다. [Swin Transformer]https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsThis paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between.. 2025. 1. 18. [2025-1] 황징아이 - Scalable Diffusion Models with Transformers AbstractTransformer 아키텍쳐에 Diffusion을 접목 시킨 논문.기존 LDM (Latent Diffusion Model에서는 U-Net을 사용했다. 그러나 U-Net의 Inductive Bias가 Diffusion Model의 성능에 중요하지 않아서 Standard design인 Transformer를 사용.Diffusion Transformer (DiT)를 제시했다. 이는 기존의 Convolutional Network (e.g. ResNet)보다 시각적 인식에 더 효율적으로 확장할 수 있는 Vision Transformer(ViT)를 참고했다.또한, 저자는 Scaling behavior of transformers with respect to network complexity vs. .. 2025. 1. 18. 이전 1 ··· 37 38 39 40 41 42 43 ··· 76 다음