Computer Vision111 [2025-1] 주서영 - Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance11institutetext: The University of Sydney Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Shuchang Ye Mingyuan Meng Mingjian Li Dagan Feng Jinman Kim .. 2025. 4. 5. [2025-1] 전연주 - Textmatch: Using Text Prompts to Improve Semisupervised Medical Image Segmentation 논문 링크: [2412.18185] TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization TextMatch: Enhancing Image-Text Consistency Through Multimodal OptimizationText-to-image generative models excel in creating images from text but struggle with ensuring alignment and consistency between outputs and prompts. This paper introduces TextMatch, a novel framework that leverages multimodal o.. 2025. 4. 4. [2025-1] 최민서 - Score-based Generative Modeling through Stochastic Differential Equations [논문링크] https://arxiv.org/abs/2011.13456 Score-Based Generative Modeling through Stochastic Differential EquationsCreating noise from data is easy; creating data from noise is generative modeling. We present a stochastic differential equation (SDE) that smoothly transforms a complex data distribution to a known prior distribution by slowly injecting noise, and a correarxiv.orgSMLD와 DDPM 논문을 읽지 않았.. 2025. 4. 4. [2025-1] 박지원 - InternVL Abstract (초록)InternVL은 60억 개의 파라미터를 가진 비전 인코더(이미지를 다루는 부분)와 80억 개의 파라미터를 가진 언어 미들웨어(언어를 다루는 부분)로 구성된 대규모 vision-language foundation 모델이다.이 모델은 웹에서 수집한 방대한 양의 이미지와 텍스트 데이터를 점진적으로 정렬하며 학습함으로써, 다양한 그림-글 관련 작업에서 성능과 효율을 극대화한 바 있으며 챗봇처럼 사람과 대화하는 기능에서도 뛰어난 성능을 보인다. 또 여러 그림-글 처리 작업에 유연하게 활용될 수 있는 구조를 가지고 있고 특히 다국어 언어 모델(LLaMA)을 언어 미들웨어 초기값으로 활용함으로써, 그림을 보는 능력과 말을 이해하는 능력 사이의 균형을 맞추고 표현 간 일관성을 확보했다는 장점이.. 2025. 4. 3. 이전 1 2 3 4 ··· 28 다음