본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Computer Vision133

[2025-1] 황영희 - Deep Residual Learning for Image Recognition https://arxiv.org/abs/1512.03385 Deep Residual Learning for Image RecognitionDeeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions witharxiv.orghttps://arxiv.org/abs/1603.05027 Identity Mappings in De.. 2025. 1. 4.
[2025-1] 임재열 - DDPM(Denoising Diffusion Probabilistic Models) DDPM(Denoising Diffusion Probabilistic Models)은 2020년 Jonathan Ho 등이 제안한 모델입니다. [DDPM]https://arxiv.org/abs/2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted .. 2025. 1. 4.
[2024-2] 유경석 - YOLOv5, YOLOv9, YOLOv11 [YOLOv5]https://arxiv.org/pdf/2304.00501v6 YOLOv5는 따로 오피셜 논문이 있지는 않지만, 위 survey 논문에서 YOLOv5의 구조와 특징에 대해 간략하게 설명하였다.YOLOv5YOLOv4 이후 몇 달만에 출시한 경량화 모델로, Darknet 대신 Pytoch에서 개발됨다양한 Scale 버전 : YOLOv5n (nano), YOLOv5s (small),  YOLOv5m (medium),  YOLOv5l (large), YOLOv5x(extra large)로 나뉘어 각각 어플리케이션과 하드웨어 사양에 맞게 convolution layer의 폭과 깊이가 차이남.YOLOv4 이후 성능 개선 : 속도는 더 빠르고, 더 높은 정확성을 보임.MS COCO data set te.. 2025. 1. 4.
[2024-2] 전윤경-An image is worth 16X16 Words : transformers for image recognition at scale 0. AbstractTransformer 아키텍처를 이미지 패치 시퀀스에 적용한 Vision Transformer(ViT)는 CNN 없이도 이미지 분류 작업에서 뛰어난 성능을 발휘한다. ViT는 대규모 데이터로 사전 학습 후 전이 학습 시, 최첨단 CNN과 유사하거나 더 나은 성능을 보이며 학습 비용도 절감한다.1. IntroductionSelf-attention 기반 아키텍처(ex Transformer)가 자연어 처리(NLP)에서 주된 모델로 자리 잡았는데 컴퓨터 비전에서는 여전히 Resnet 유사 아키텍처가 최고 수준이다. ViT최소한의 수정으로 Transformer를 이미지에 적용함 이미지를 패치로 나눠 선형 임베딩 시퀀스를 Transformer에 입력으로 제공결과중간크기 데이터 셋: CNN보다 낮.. 2025. 1. 4.