본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Multi-Modal15

[2025-1] 박제우 - CLIP : Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020 Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text .. 2025. 5. 6.
[2025-1] 유경석 - Bag of Tricks for Developing Diabetic Retinopathy Analysis Framework to Overcome Data Scarcity https://arxiv.org/pdf/2210.09558 AbstractDR screening : UW-OCTA를 사용하여 초기 DR 진단 가능Data collection의 어려움과 public dataset 부재로 Deep Learning based DR 분석 시스템 구축에 어려움 (Sub-par performance에 그침) → Data가 적더라도 Robust한 모델 구축 필요함DR analysis를 위한 empirical study 진행 : Lesion segmentation, Quality assessment, DR grading → DR analysis challenge에서 1st place 달성 각 model별로 robust training scheme 적용: Ensemble learnin.. 2025. 5. 2.
[2025-1] 유경석 - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering https://arxiv.org/pdf/2305.10415v6  AbstractMedVQA를 생성(generative) 문제로 재구성하여 인간-기계 상호작용을 자연스럽게 구현Pre-trained vision encoder와 LLM을 결합한 생성 기반 모델 제안PMC-VQA dataset 구축 : Image - Q&A pair로 구성된 VQA로 다양한 medical modality를 다룸Model 성능 평가 : PMC-VQA에서 훈련 후 VQA-RAD, SLAKE, Image-Clef-2019 benchmark에서 fine-tunning, 기존 MedVQA 모델보다 더 정확하고 적절한 답변 생성.Test set 제시 : manual verification을 거친 새로운 test set 제안하여 모델 성능을.. 2025. 4. 5.
[2025-1] 황징아이 - GOKU : Flow Based Video Generative Foundation Models 링크 : https://saiyan-world.github.io/goku/      1. GOKU 소개최근에는 여러 분야에서 비디오 생성이 중요해지면서 효율적으로 비디오 생성을 개발하는 연구가 활발히 진행되고 있다.본 논문에서 Goku를 소개. Goku는 Rectified Flow Transformer를 기반으로 하는 이미지와 영상을 통합적으로 생성할 수 있는 모델이다Goku는 단순히 텍스트-이미지 생성(Text-to-Image, T2I)에 그치지 않고, 텍스트-영상 생성(Text-to-Video, T2V)까지 통합하는 형태로 설계되었다.  기존 생성 모델들이 겪던 여러 문제점들을 해결하기 위해 데이터 품질 향상, 모델 구조 최적화, 효율적인 학습 전략, 그리고 대규모 병렬 학습 인프라 구축에 초점을 맞.. 2025. 3. 22.