분류 전체보기290 [2025-1]박제우 - Scaling Language-Image Pre-training via Masking https://arxiv.org/abs/2212.00794 Scaling Language-Image Pre-training via MaskingWe present Fast Language-Image Pre-training (FLIP), a simple and more efficient method for training CLIP. Our method randomly masks out and removes a large portion of image patches during training. Masking allows us to learn from more image-text pairs givearxiv.org https://blog.outta.ai/284 본 논문은 지난번 리뷰했던 자연어 지도 학습 모.. 2025. 5. 17. [2025-1] 전연주 - VAE: Auto-Encoding Variational Bayes 논문 링크: 1312.6114코드 링크: 2025-OUTTA-Gen-AI/Reviews/Diffusion/Auto-Encoding Variational Bayes.ipynb at 1b4ef8a85c6d5b0d0cacea47ed0ef1a39f843be7 · youngunghan/2025-OUTTA-Gen-AI1. Introduction 연속적인 latent variable 또는 parameter를 포함한 directed probabilistic model(방향성을 갖는 확률 그래프 모델)에서는, 특정 관측값에 대한 posterior 분포 $p(z \mid x)$를 계산하는 것이 매우 어렵거나 불가능한 경우가 많다. 이와 동시에, 실제 문제에서는 데이터가 수십만~수백만 개에 이르는 대규모 데이터셋으로 구성되.. 2025. 5. 17. [2025-1] 김유현 - Progressive Growing of GAN https://arxiv.org/abs/1710.10196 Progressive Growing of GANs for Improved Quality, Stability, and VariationWe describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training prograrxiv.org 0. Abstract논문에서는 Prgressi.. 2025. 5. 17. [2025-1] 임수연 - EfficientDet: Scalable and Efficient Object Detection https://arxiv.org/pdf/1911.09070 1. Introduction연구 배경최신 객체 탐지 모델들은 정확도가 향상되었지만 모델 크기와 연산량도 크게 증가함AmoebaNet 기반 NAS-FPN과 같은 최신 탐지기는 167M 파라미터와 3045B FLOPs(RetinaNet의 30배)가 필요이러한 큰 모델은 리소스 제약이 있는 실제 환경에 적용하기 어려움주요 도전과제도전 1: 효율적인 다중 스케일 특징 융합 방법 개발도전 2: 여러 리소스 제약 조건에서도 효율적으로 동작하는 확장 가능한 아키텍처 설계주요 contribution가중치 양방향 특징 피라미드 네트워크(Weighted BiFPN) 제안객체 탐지를 위한 컴파운드 스케일링 방법 개발EfficientNet 백본과 BiFPN을 결합한 .. 2025. 5. 16. 이전 1 2 3 4 ··· 73 다음