Multi-Modal9 [2025-1] 유경석 - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering https://arxiv.org/pdf/2305.10415v6 AbstractMedVQA를 생성(generative) 문제로 재구성하여 인간-기계 상호작용을 자연스럽게 구현Pre-trained vision encoder와 LLM을 결합한 생성 기반 모델 제안PMC-VQA dataset 구축 : Image - Q&A pair로 구성된 VQA로 다양한 medical modality를 다룸Model 성능 평가 : PMC-VQA에서 훈련 후 VQA-RAD, SLAKE, Image-Clef-2019 benchmark에서 fine-tunning, 기존 MedVQA 모델보다 더 정확하고 적절한 답변 생성.Test set 제시 : manual verification을 거친 새로운 test set 제안하여 모델 성능을.. 2025. 4. 5. [2025-1] 황징아이 - GOKU : Flow Based Video Generative Foundation Models 링크 : https://saiyan-world.github.io/goku/ 1. GOKU 소개최근에는 여러 분야에서 비디오 생성이 중요해지면서 효율적으로 비디오 생성을 개발하는 연구가 활발히 진행되고 있다.본 논문에서 Goku를 소개. Goku는 Rectified Flow Transformer를 기반으로 하는 이미지와 영상을 통합적으로 생성할 수 있는 모델이다Goku는 단순히 텍스트-이미지 생성(Text-to-Image, T2I)에 그치지 않고, 텍스트-영상 생성(Text-to-Video, T2V)까지 통합하는 형태로 설계되었다. 기존 생성 모델들이 겪던 여러 문제점들을 해결하기 위해 데이터 품질 향상, 모델 구조 최적화, 효율적인 학습 전략, 그리고 대규모 병렬 학습 인프라 구축에 초점을 맞.. 2025. 3. 22. [2025-1] 백승우 - LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One DayConversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs froarxiv.org1. IntroductionCurrent investigations focus on un.. 2025. 3. 4. [2025-1] 정인아 - CoCa: Contrastive Captioners are Image-Text Foundation Models https://arxiv.org/abs/2205.01917 CoCa: Contrastive Captioners are Image-Text Foundation ModelsExploring large-scale pretrained foundation models is of significant interest in computer vision because these models can be quickly transferred to many downstream tasks. This paper presents Contrastive Captioner (CoCa), a minimalist design to pretrain anarxiv.org Intro문제Captioning과 Contrastive Learnin.. 2025. 1. 25. 이전 1 2 3 다음