전체 글334 [2025-1] 전연주 - Patches Are All You Need? 논문 링크: 2201.09792 Overview:Transformer 기반 Vision 모델의 성능이 patch 기반 입력 표현 때문인지, self-attention 구조 때문인지 탐구하고, 단순한 convolution 기반 모델 ConvMixer를 제안함.1. Introduction기존 Vision 분야에서 CNN이 오랫동안 표준 모델이었음.하지만 Transformer 기반 모델(특히 ViT)이 등장하며, 대규모 데이터셋에서 CNN보다 우수한 성능을 보이기 시작함.Transformer는 원래 NLP에 특화되었고, self-attention의 계산 복잡도는 입력의 길이에 대해 제곱 (O(N²))이기 때문에, 이미지의 각 픽셀에 직접 적용하기에는 매우 비효율적임.→ 이를 해결하기 위해 등장한 아이디어가 바.. 2025. 5. 15. [2025-1] 주서영 - Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learningGitHub GitHub - rajpurkarlab/CheXzero: This repository contains code to train a self-supervised learning model on chest X-ray images thThis repository contains code to train a self-supervised learning model on chest X-ray images that lack explicit annotations and evaluate this model's performanc.. 2025. 5. 15. [2025-1] 이재호 - CAT3D: Create Anything in 3D with Multi-View Diffusion Models https://arxiv.org/pdf/2405.10314 - Ruiqi Gao et alNeurIPS 2024 oralProject page: https://cat3d.github.io/ Abstract 기존 3D 재구성 기법은 수백~수천 장의 이미지가 필요함.CAT3D는 multi-view diffusion model을 활용해 이 과정을 시뮬레이션하여 소수의 이미지로도 고품질 3D 뷰 생성 가능.주어진 입력 이미지들과 새로운 뷰포인트(target views)를 기반으로 일관된 novel view 이미지들을 생성.이 view들은 3D 재구성의 입력으로 사용되어, 다양한 시점에서 렌더링 가능한 3D 표현을 실시간으로 생성할 수 있음.CAT3D는 1분 이내에 3D 장면 전체를 생성할 수 있으며, 기존 단.. 2025. 5. 10. [2025 - 1] 김지원 - An Algorithmic Crystal Ball: Forecasts-based on MachineLearning 논문 소개 논문 제목 : An Algorithmic Crystal Ball: Forecasts-based on MachineLearning발간년도: 2018저자 : Jin-Kyu Jung, Manasa Patnam, and Anna Ter-Martirosyan특징 : IMF(Internationa Monetary Fnd) Working Paper Research Question매크로 데이터(다음 분기 GDP 성장률 등)을 예측할 때에도 딥러닝이 높은 정확도를 보여주는가? Background기존에 IMF나 World Bank와 같은 기관들이 각 국가의 전망에 대한 보고서들을 내면서 다음 분기 GDP 성장률을 예측한다.하지만 Timmermann(2007)에 따르면 IMF의 World Economic Outl.. 2025. 5. 10. 이전 1 ··· 10 11 12 13 14 15 16 ··· 84 다음