본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 전윤경-A FOUNDATION MODEL FOR GENERALIZABLE DISEASEDIAGNOSIS IN CHEST X-RAY IMAGES

by rachel2003 2025. 5. 9.

CXRBase: 흉부 X선 이미지(CXR)에 대한 질병 진단의 일반화된 해결책을 제공

  • 이미지 기반 자기 지도 학습(SSL) 방법: 데이터를 masking하여 그 마스킹된 부분을 재구성하는 방식으로 학습하는 모델
    • Masked Autoencoders (MAE): ViT와 결합

 

모델 아키텍처

  • 데이터 처리
    • 배경을 제외한 이미지의 흉부영역만 유지
    • 512*512 해상도( 큐빅 보간법)
    • 데이터 증강 기법: random cropping, random horizontal flipping 적용
  • stage 1 (자가 지도 학습(SSL))
    • 인코더: ViT-large(24개 트랜스포머 블록)
    • 마스크 비율: 0.75
    • 멀티헤드 자기 주의(Multihead Self-Attention)와 Multi-layer Perceptron 계층을 포함하여 특성 벡터를 처리-> 고수준의 특성을 생성
    • 디코더: ViT-small(8개 트랜스포머 블록)
    • 고수준 특성에 마스크된 더미 패치를 입력으로 삽입하고, 이후 선형 투영을 통해 이미지 패치를 재구성
  • stage 2( 미세조정)
    • 기본 모델에서 인코더(ViT-large)만 사용
    • 다양한 질병 범주에 대한 확률을 생성, 레이블 스무딩을 적용

 

총 104만 개의 CXR 이미지를 포함하는 데이터셋(30.5%: 개인 데이터셋, 69.5%:공개 데이터셋)

 

 

흉부 X선에 대해 음성 선별

  • 공개 데이터 셋: 평균 AUC 79.1%
  • 개인 데이터 셋 : 평균 AUC 82.7%

 

 

COVID/결핵 선별(8개 공개 데이터셋)

  • 높은 AUROC 값:SL-ImageNet (p < 0.001) , SSL-ImageNet (p < 0.001)과 비교하여 통계적으로 유의미하게 높은 값