분류 전체보기271 [2024-2] 문지영 - deeplearning: Introduction https://www.deeplearningbook.org/contents/intro.html https://www.deeplearningbook.org/contents/intro.html www.deeplearningbook.org I. 인공지능이란0. 인공지능의 가능성 프로그래밍이 가능한 컴퓨터가 등장했을 때부터 이러한 기계가 인간과 같은 지능을 갖출 수 있을까에 대한 궁금증이 있어왔음. 인간에게는 직관적이고 쉬운 문제인 단어 인식이나 이미지에서 특정 얼굴을 알아보는 것과 같은 문제가 컴퓨터에게는 어려운 과제. 컴퓨터는 개념들의 계통구조를 이용하여 경험으로부터 배우고 세상을 이해할 수 있음. 복잡한 개념의 하위 개념, 그리고 그 개념의 하위 개념으로 내려가는 계통구조를 활용: 심층학습deep lear.. 2025. 1. 4. [2025-1] 임재열 - DDPM(Denoising Diffusion Probabilistic Models) DDPM(Denoising Diffusion Probabilistic Models)은 2020년 Jonathan Ho 등이 제안한 모델입니다. [DDPM]https://arxiv.org/abs/2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted .. 2025. 1. 4. [2024-2] 유경석 - YOLOv5, YOLOv9, YOLOv11 [YOLOv5]https://arxiv.org/pdf/2304.00501v6 YOLOv5는 따로 오피셜 논문이 있지는 않지만, 위 survey 논문에서 YOLOv5의 구조와 특징에 대해 간략하게 설명하였다.YOLOv5YOLOv4 이후 몇 달만에 출시한 경량화 모델로, Darknet 대신 Pytoch에서 개발됨다양한 Scale 버전 : YOLOv5n (nano), YOLOv5s (small), YOLOv5m (medium), YOLOv5l (large), YOLOv5x(extra large)로 나뉘어 각각 어플리케이션과 하드웨어 사양에 맞게 convolution layer의 폭과 깊이가 차이남.YOLOv4 이후 성능 개선 : 속도는 더 빠르고, 더 높은 정확성을 보임.MS COCO data set te.. 2025. 1. 4. [2024-2] 전윤경-An image is worth 16X16 Words : transformers for image recognition at scale 0. AbstractTransformer 아키텍처를 이미지 패치 시퀀스에 적용한 Vision Transformer(ViT)는 CNN 없이도 이미지 분류 작업에서 뛰어난 성능을 발휘한다. ViT는 대규모 데이터로 사전 학습 후 전이 학습 시, 최첨단 CNN과 유사하거나 더 나은 성능을 보이며 학습 비용도 절감한다.1. IntroductionSelf-attention 기반 아키텍처(ex Transformer)가 자연어 처리(NLP)에서 주된 모델로 자리 잡았는데 컴퓨터 비전에서는 여전히 Resnet 유사 아키텍처가 최고 수준이다. ViT최소한의 수정으로 Transformer를 이미지에 적용함 이미지를 패치로 나눠 선형 임베딩 시퀀스를 Transformer에 입력으로 제공결과중간크기 데이터 셋: CNN보다 낮.. 2025. 1. 4. 이전 1 ··· 38 39 40 41 42 43 44 ··· 68 다음