본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Multi-Modal

[2025-1] 유경석 - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

by Theta_ 2025. 4. 5.

https://arxiv.org/pdf/2305.10415v6

 


 

Abstract

  • MedVQA를 생성(generative) 문제로 재구성하여 인간-기계 상호작용을 자연스럽게 구현
  • Pre-trained vision encoder와 LLM을 결합한 생성 기반 모델 제안
  • PMC-VQA dataset 구축 : Image - Q&A pair로 구성된 VQA로 다양한 medical modality를 다룸
  • Model 성능 평가 : PMC-VQA에서 훈련 후 VQA-RAD, SLAKE, Image-Clef-2019 benchmark에서 fine-tunning, 기존 MedVQA 모델보다 더 정확하고 적절한 답변 생성.
  • Test set 제시 : manual verification을 거친 새로운 test set 제안하여 모델 성능을 더욱 철저히 평가.
  • PMC-VQA는 의료 VQA 연구에 중요한 데이터셋으로 자리 잡고, MedVInT 모델은 MedVQA 분야에서 큰 진전을 이룸.

 

1. Introduction

LLM의 의료 자연어 처리 분야에서 성공 : 언어 이해에 뛰어나지만 visual content를 input으로 받는 데 한계

→ Medical visual content 해석이 필요한 MedVQA 분야에서 한계가 뚜렷

 

MedVQA (Medical Visual Question Answering) : 의료 이미지 이해, 해석 후 관련 질문에 대한 답변을 제공하는 시스템 개발

  • AI를 의료 전문 지식과 통합하여 healthcare 결과, 환자 치료, 의학 분야에 영향

기존 방식에서는 제한된 선택지 중 정답을 분류하는 작업으로 취급, 제한된 사례에서만 유용

→ 자유형 답변 생성 모델인 Open-ended MedVQA 제안

기존 visual-language representation learning (ex. Flamingo, BLIP)은 의료 시나리오의 복잡하고 미묘한 visual concept에 의해 적용이 제한적이라는 한계

 

기존 Dataset의 size 문제를 해결하기 위해, 대규모 medical visual-language dataset를 구성하고 확장가능한 자동 pipeline 구성

PMC-VQA : 149k image의 227k VQA 쌍 포함, 방사선 이미지의 80% 포괄 - 양과 다양성 측면에서 향상

 

MedVInT : Generative visual-language model

  • PMC-VQA training set 사용
  • 기존 public bnechmark (VQA-RAD, SLAKE, ImageClef-VQA-2019) fine-tuning
  • 높은 정확도, 개발 잠재성

Contibution

  1. MedVInT : MedVQA의 문제를 generative learning task로 재구성, Visual instruction tuning을 통해 pre-trained vision encoder를 LLM과 정렬하여 얻은 모델
  2. PMC-VQA : 확장 가능한 pipeline 및 large-scale MedVQA dataset, 다양한 modality와 질병 포함
    기존 dataset의 크기와 다양성 확장
  3. Fine-tune : PMC-VQA에서 MedVInT pre-training 후 VQA-RAD, SLAKE에 적용
    SOTA performance, 기존 모델 능가
  4. Evaluation : 새로운 test set 제안, 어려운 benchmark 제시하여 VQA 성능 평가

 

2. Results

MedVInT(Medical Visual Instruction Tuning)

  • MedVQA 수행을 위해 PMC-VQA 조직화 : Dataset 포괄적 분석 및 비교
  • Trained model 평가 지표 : MedVQA benchmark
  • 새로운 평가 지표인 MedVQA benchmark 설정, Framework를 통한 pre-trained model 평가

2.1 Data Analysis

  • 227k개 image-question pairs
  • Image의 광범위한 다양성 : 기존 MedVQA dataset보다 크기, modality 다양성 측면에서 뛰어난 성능
  • 다양한 난이도의 질문 : Image modality, perspective, organ 식별부터, 전문적 지식 판단이 필요하거나 sub-figure를 가려내는 능력을 요구하는 질문까지

다른 Dataset과 달리, PMC-VQA에서 크기와 다양성 측면 증가

  1. Images : 다양한 유형, Radiology에서 signal까지
  2. Questions : 다양한 질문 유형 (차이점, 영상 유형, 영상 특징 등), 5~15개 단어 범위
  3. Answers : 위치 설명, image modality, 특정 해부학적 영역에 대한 서, 5 단어 내외

Image modality의 다양성 및 전문적 지식을 요구하는 예시 Q&A
Training set의 Question 분포(위) 및 Answer 분포(아래)

 

2.2 Evaluation on Public Benchmarks

  • 기존 MedVQA benchmark인 VQA-RAD, SLAKE, ImageClef-VQA-2019로 MedVInT 성능 평가
  • MedVInT-TE, MedVInT-TD version 모두 VQA-RAD, SLAKE dataset에서 최고 성능 달성
  • PMC-CLIP을 visual backbone, PMC-LLaMA를 language backbone으로 사용 시 최고 성능을 달성

 

  • 질문 유형별 평가 : 개방형, 폐쇄형 질문 모두 정확도 향상
  • Architecture별 비교 : Pre-train없이 학습한 MedVInT-TE-S, MedVInT-TD-S 모두 이전 architecture인 M3AE, PMC-CLIP 능가
  • 사전학습 유무 : 사전학습된 모델 (MedVInT-TE, MedVInT-TD)에서 사전학습 없는 모델(MedVInT-TE-S, MedVInT-TD -S)보다 정확도 증가

사전 학습 없이 훈련한 architecture별 성능 비교 (1행) / 기존 모델과 MedVInT 비교 (2, 3행)

2.3 Evaluation on PMC-VQA

PMC-VQA-test : 새로운 MedVQA benchmark, Blanking(개방형), Choice(선택형) 작업에 대해 다양한 모델 평가 용도

 

1. Language-only model별 비교

  • GPT-4-Oracle : GPT-4를 이용해 논문의 image caption을 기반으로 답변, 모델 성능의 상한
  • Language-only model에서 무작위적인 결과, 정확도가 떨어짐
    • Blanking에서 특정 선택지와 올바르게 매치되지 않는 긴 문장 출력 경향
    • Choice에서 추측만으로 나올 수 있는 최대 정답율과 동일한 정확도
  • Multimodal 이해의 중요성, Image-question 관계성 강조
  • 다른 training set과 다르게 PMC-VQA-test는 철저한 manual checnking을 거쳐 평가 신뢰성 보장, PMC-VQA-test-initial test set 추가 제공

2. Zero-shot

  • 일반 VQA model(PMC-CLIP, BLIP-2, Open-Flamingo)은 Choice task에서 상대적으로 낮은 성능
  • Medical-specific VQA (LLaVA-Med) : 일반 모델보다 우수하나, MedVInT보다 뒤쳐짐

3. Trained on PMC-VQA

  • PMC-CLIP vision backbone과 결합 시 뛰어난 성능 : MedVInT-TE + PMC-CLIP + PubMedBERT에서 최고 성능
  • Pre-trained되지 않은 Scratch보다 Domain-specific pre-trained PMC-CLIP을 사용 시 더 좋은 성능을 보이는 경향

4. 2 stage VQA model과 비교

  • 2단계 VQA 방법(ChatCAD 방식, MedICap) : Image captioning 후 LLM을 통해 질문에 대답
  • Zero-shot, PMC-VQA training 후 둘 다 정확도가 떨어짐 : Caption과 question 간 focus 차이가 원인
     

VQA model별 PMC-VQA-test benchmark 평가 결과
Image와 caption, Question-Answer pair, model prediction 예시, Caption 내용과 Question이 반드시 일치하지 않음을 보임.

2.4 Evaluation of Visual Backbone Performance

  • Visual backbone의 성능과 개선 사항 확인, MedMNIST dataset에서 모델 평가
  • 3가지 MNIST 모두에서 MedVInT가 경쟁력 있는 성능
  • CLIP 스타일 학습에 비해 VQA 기반 pre-training의 효과 : 더 깊은 컨텐츠 이해도 목표

Visual backbone별로 MNIST test dataset 성능 평가

 

3. Discussion

VQA model의 낮은 정확도 개선의 필요성 (무작위 추측과 비슷한 정도)

MedVInT : Pretrained Vision encoder의 visual data를 Language model과 정렬 → SOTA 달성

PMC-VQA pipeline : 다양한 modality와 질병을 커버할 확장 가능한 파이프라인 제시 → 다양한 method 평가를 위한 새롭고 신뢰할 수 있는 benchmark

 

Medical Imaging Ecosystem을 위한 Medical VQA의 중요성

  • Radiologist, Referring physicians : 강력한 의사결정 지원 도구로써 진단 정확도 향상, 영상 해석 프로세스 간소화 → 임상적  workflow 효율화 및 환자 치료에 더 많은 시간 할애
  • Patient : 복잡한 medical information 전달 개선, 환자의 이해도 및 치료 과정 참여 강화, patient-centered care와 공동 의사 결정
  • 연구, 교육 : 대학생, 연구자에게 interactive learning 경험, 연구 계획 설계, medical imaging concept에 대한 통찰, 의학 지식과 기술 개발 기여

Medical VQA Domain에 귀중한 자원으로써의 PMC-VQA

  • 다양하고 복잡한 VQA requirement 해결하는 광범위한 리소스 제공
  • 의료영상에 대한 이해, 해석 모델 개발에 용이
  • Pre-training을 통해 심층적 이해 향상 : Generative MedVQA system 개발의 주요 과제 해결

일반적인 Visual-language model의 MedVQA 영역에서 한계성

  • 기존 Multimodal model (BLIP-2, Flamingo) 는 질답에서 문제 발생 : dataset와 biomedical relevance의 특수성
  • PMC-VQA-train dataset이 Generative MedVQA system 개발에서의 중요 역할 강조

MedVInT의 Generative MedVQA SOTA 달성

  • MedVInT-TE와 MedVInT-TD 모두 좋은 성과 달성, Generative model backbone 변화와 연관지어 비교
  • Specialized medical visual backbone 대체 시 성능 향상, visual understanding의 중요성
  • Domain-specific language backbone 사용 시에도 미세하게 성능이 개선되는 결과
  • 개방형 질문에서 성능 향상 효과 두드러짐, benchmark별 효과 차이 (VQA-RAD는 긴 답변의 MedVInT-TD, SLAKE는 짧은 응답의 MedVInT-TE에서 강점)

PMC-VQA-test - Challenging Benchmark

  • 이전 medical multimodal SOTA model인 PMC-CLIP도 어려움을 겪는 benchmark (blanking, multi-choice형 문항에서 무작위 추측과 비슷한 정확도)
  • PMC-VQA-test benchmark의 어려운 난이도, VQA 모델에 대한 엄격한 평가 지표, 추가 개선 사항 여지 남아있음

Impacts

  • PMC-VQA dataset의 빠른 채택과 광범위한 활용, 수많은 생성 모델 개발을 위한 기초 리소스, 다양한 작업에 영향
  • Dataset 구성 방법론과 전략이 몇몇 작업에 영향
  • MedVInT가 선구적인 medical generative foundation model로 인식되고 있으며, Robustness와 utility, scientific community에서의 역할 강조 중

Limitation

  • 잠재적 분포 편향 : 임상 환경 비교 시 데이터가 단순할 가능성, 하지만 실제 임상 이미지를 더 잘 이해하는 데 여전히 중요한 역할
  • 평가 지표의 한계 : ACC와 Bleu score가 문장 유창성을 반영하지 못함 (단순 문자열 유사성), 향후 더 정확하고 효과적인 평가 지표 필요
  • 생성 모델 한계 : hallucination 문제 발생, VQA proof-of-concept 단계로 간주되며 추가 연구 필요

 

4. Method

4.1 The PMC-VQA Dataset

  • Multimodal MedVQA dataset 부족이 모델 개발의 중대한 장애물
  • Dataset 수집 프로세스, dataset을 다양한 관점에서 분석하여 속성과 잠재적 응용분야 소개

PMC-VQA dataset 구축 방법


Source data

  • PMC-OA; PubMedCentral OpenAccess에서 수집한 image-caption text pair (381K)

Question-Answer Generation

  • PMC-OA의 image caption을 Chat-GPT에 입력한 후 각 caption별 5개의 Question-Answer pair 생성 (1.5M)
  • 각 content별 5개의 질문, 4개의 선택지, 각 QA pair는 caption의 image와 연결
  • 다양한 주제를 포괄하는 고품질의 질문 대량 생성, Filtering process를 통해 포맷 요구사항 충족 여부 확인

Automatic & Manual Data Filtering

  • 단순 language model만으로 답변 가능한 질문 제거 : LLaMA-7B 이용 (848K)
  • Image 기반하여 답변 불가한 질문 제거 : Question classifier model을 학습시켜 적용
  • PMC-VQA dataset 완성 : 149,075개 image, 226,946개 QA pair

 

PMC-VQA-test-initial : 50,000개의 image-question pair 무작위 선택, training set와 다른 image

PMC-VQA-test : Manual로 test sample을 검사하여 2K의 정리된 test set
→ 질문과 이미지 관련성, 오답 선지의 난이도, image 품질 및 포함된 정보 등 고려

 

4.2 Architecture Design

4.2.1 Problem Formulation

  • MedVQA는 medical visual content에 대한 자연어 질문에 답하는 작업, 주어진 질문에 대한 해당 답변을 출력할 수 있는 모델 학습
  • 기존 방식에서는 VQA를 classification 문제로 처리(후보 집합에서 정답 선택) → 미리 정의된 결과로 제한하여 자유형 상호작용 잠재력 방해
  • 개방형 답변 생성 목표, 실제 정답 생성 확률을 최대화하여 다양하고 유익한 답변 및 광범위한 시나리오 생성


4.2.2 MedVInT-TE

 

Visual Encoder : Image input에 대한 embedding

PMC-CLIP에서 채택한 pre-trained ResNet-50 기반

Projection module : MLP-based, transformer-based variant 존재

 

Text Encoder : Question에 대해 prompt를 설정하고 text embedding

Pre-trained language model 사용

개방형, 폐쇄형 질문에 알맞게 prompt 변형

 

Multimodal Decoder : Visual embedding과 question embedding을 concatenate

4-layer transformer 구조, Scratch (Pre-training X)

Mask language modeling 작업 : Question input에 여러 개의 mask token padding, masked token에 대한 예측 생성

 

4.2.3 MedVInT-TD

Visual Encoder는 MedVInT-TE와 동일

 

Text Encoder : Simple tokenization embedding layer (GPT-like LLM 방식)

LLaMA, PMC-LLaMA 등 pre-trained LLM의 구조 사용

개방형, 폐쇄형 질문에 알맞게 prompt 변형

 

Multimodal Decoder : pre-trained weight가 존재하는 transformer decoder-based LLM

PMC-OA로 전체 네트워크 pre-training : Image encoding space의 gap을 줄이기 위함

 

 

4.3 Datasets and Backbones

4.3.1 Existing MedVQA Datasets

  • VQA-RAD : Radiology를 위해 특별히 설계된 VQA dataset
  • SLAKE : 영어-중국어 이중언어 VQA dataset, 영어만 사용
  • ImageClef-VQA-2019 : MedPix image 기반 VQA dataset, 질문을 modality, plane, organ system, abnormality 4개 유형 분류

4.3.2 Proposed PMC-VQA Dataset

  • Multi-choice Answering : 4개의 선택지가 prompt로 제공, 올바른 선택지를 고르는지 ACC score로 평가
  • Open-ended Answering : 기존 VQA 선택형 접근 극복, Input option 없이 직접 answer 생성, Bleu, ACC score로 평가

Flamingo, BLIP-2 등 CV분야의 강력한 Generative model과 비교 (Zero-shot evaluation)

 

4.3.3 Pre-trained Backbones

Pre-trained된 Language, Visual backbone으로 구분

기본적으로 의료 데이터에 적합하다 알려진 PMC-LLaMA 및 PMC-CLIP을 backbone으로 사용

 

Visual backbone

  • CLIP : 12개 transformer layer가 있는 ViT-base-patch32 version을 pre-trained visual encoder로 사용
  • PMC-CLIP : CLIP 구조 기반 medical-specific visual model, PubMed 논문에서 수집한 image-text pain data 활용
    → medical image와 text 처리에 특별히 설계

Language backbone

  • LLaMA : SOTA LLM, 32개 transformer layer로 구성된 7B version Language backbone
  • PMC-LLaMA : LLaMA-7B을 biomedical 논문에 대해 fine-tuning, 강력한 fitting 가능과 medical task에서 뛰어난 성능
  • PubMedBERT : PubMed 초록과 PubMedCentral article를 사용하여 학습된 BERT 유사 모델, 뛰어난 text-embedding
  • LLaMA-ENC, PMC-LLaMA-ENC : LLaMA와 PMC-LLaMA에서 full attention mask 전달 및 embedding sampling을 통해 encoder model로 활용, BERT 유사 모델과 직접적 비교 가능

4.3.4 Implementation Details

: training setting 및 구현 방법 설명

 

4.3.5 Baseline Methods

 

Established generative model

  • Open-Flamingo : DeepMind 최첨단 모델 Flamingo Open-source version, Zero-shot evaluation을 위해 공개된 checkpoint 사용
  • BLIP-2 : Flamingo를 능가하는 visual-language generative model, Zero-shot evaluation을 위해 공개된 checkpoint 사용

다양한 medical VQA model 중 SOTA approaches

  • Hanlin : VQA-Med 2019 task에 참여한 팀 중 가장 좋은 결과, public leaderboard 결과 차용
  • MEVF-BAN : Unsupervised denoising auto-encoder와 supervised Meta-Learning을 결합한 framework, PMC-CLIP에서 보고한 finetuned 결과 활용
  • CPRD-BAN : 2 stages pre-training framework (Radiologt images에서 전이가능한 feature 학습 + compact visual featrue extractor distilling), PMC-CLIP에서 보고한 finetuned 결과 활용
  • M3AE : Multimodal masked autoencoder를 이용한 Self-supervised learning 접근법, PMC-CLIP에서 보고한 finetuned 결과 활용
  • PMC-CLIP : Zero-shot setting의 VQA task 수행을 위해 imaging embedding을 가장 유사한 QA pair text embedding과 매칭하여 정확도 계산

4.3.6 Evaluation Metrics

  • BLEU-1 : 참조 텍스트와 비교하여 single word나 unigram의 정확도에 초점
  • ACC : 전체 질문 수에서 정답을 맞춘 질문의 백분율, 문장 요소의 sequence 비교, 유사점과 차이점 찾기

 

5. Conclusion

  • MedVQA의 문제를 human-machine interaction을 반영하는 generative task로 반영
  • Pre-trained vision encoder를 통해 medical visual understanding 수행
  • PMC-VQA dataset을 활용한 pipeline 제시, SOTA 달성 및 다양한 model을 평가할 benchmark 제시