본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Computer Vision111

[2024-2] 유경석 - YOLOv5, YOLOv9, YOLOv11 [YOLOv5]https://arxiv.org/pdf/2304.00501v6 YOLOv5는 따로 오피셜 논문이 있지는 않지만, 위 survey 논문에서 YOLOv5의 구조와 특징에 대해 간략하게 설명하였다.YOLOv5YOLOv4 이후 몇 달만에 출시한 경량화 모델로, Darknet 대신 Pytoch에서 개발됨다양한 Scale 버전 : YOLOv5n (nano), YOLOv5s (small),  YOLOv5m (medium),  YOLOv5l (large), YOLOv5x(extra large)로 나뉘어 각각 어플리케이션과 하드웨어 사양에 맞게 convolution layer의 폭과 깊이가 차이남.YOLOv4 이후 성능 개선 : 속도는 더 빠르고, 더 높은 정확성을 보임.MS COCO data set te.. 2025. 1. 4.
[2024-2] 전윤경-An image is worth 16X16 Words : transformers for image recognition at scale 0. AbstractTransformer 아키텍처를 이미지 패치 시퀀스에 적용한 Vision Transformer(ViT)는 CNN 없이도 이미지 분류 작업에서 뛰어난 성능을 발휘한다. ViT는 대규모 데이터로 사전 학습 후 전이 학습 시, 최첨단 CNN과 유사하거나 더 나은 성능을 보이며 학습 비용도 절감한다.1. IntroductionSelf-attention 기반 아키텍처(ex Transformer)가 자연어 처리(NLP)에서 주된 모델로 자리 잡았는데 컴퓨터 비전에서는 여전히 Resnet 유사 아키텍처가 최고 수준이다. ViT최소한의 수정으로 Transformer를 이미지에 적용함 이미지를 패치로 나눠 선형 임베딩 시퀀스를 Transformer에 입력으로 제공결과중간크기 데이터 셋: CNN보다 낮.. 2025. 1. 4.
[2024-2] 조환희 - DCGAN, Cycle GAN, LSGAN 1. DCGANGAN 시리즈의 2번째 논문, DCGAN다. 기존의 GAN은 학습이 불안정하다는 문제가 있었다. 터무니 없는 데이터를 생성하기도 하고, Mode collapse 문제가 발생하기도 했다.  DCGAN은 이러한 문제를 해결하기 위해 CNN을 GAN에 적용시킨 모델이다. Model ArchitectureCNN 아키텍처를 GAN에 도입하려고 한 시도는 이 논문이 처음이 아니지만, 성공적이지 못했다. 그리고 DCGAN 연구진분들 역시 주로 Supervised Task에 사용되는 CNN을 사용하여 GAN을 조정하는 것에서 어려움을 겪었다고 밝히고 있다. 하지만 DCGAN이 발표된 2016년 당시 최신의 CNN 학습 테크닉을 도입함으로써 이를 극복할 수 있었다고 한다. 이 테크닉 다음과 같다. 1. R.. 2025. 1. 4.
[2024-2] 최민서 - Deep Unsupervised Learning using Nonequilibrium Thermodynamics https://arxiv.org/abs/1503.03585 Deep Unsupervised Learning using Nonequilibrium ThermodynamicsA central problem in machine learning involves modeling complex data-sets using highly flexible families of probability distributions in which learning, sampling, inference, and evaluation are still analytically or computationally tractable. Here, we develarxiv.org 생성형 모델이 이미지를 생성하는 방식은 다양하고 그 중 하나가 di.. 2025. 1. 3.