CXRBase: 흉부 X선 이미지(CXR)에 대한 질병 진단의 일반화된 해결책을 제공
- 이미지 기반 자기 지도 학습(SSL) 방법: 데이터를 masking하여 그 마스킹된 부분을 재구성하는 방식으로 학습하는 모델
- Masked Autoencoders (MAE): ViT와 결합
모델 아키텍처
- 데이터 처리
- 배경을 제외한 이미지의 흉부영역만 유지
- 512*512 해상도( 큐빅 보간법)
- 데이터 증강 기법: random cropping, random horizontal flipping 적용
- stage 1 (자가 지도 학습(SSL))
- 인코더: ViT-large(24개 트랜스포머 블록)
- 마스크 비율: 0.75
- 멀티헤드 자기 주의(Multihead Self-Attention)와 Multi-layer Perceptron 계층을 포함하여 특성 벡터를 처리-> 고수준의 특성을 생성
- 디코더: ViT-small(8개 트랜스포머 블록)
- 고수준 특성에 마스크된 더미 패치를 입력으로 삽입하고, 이후 선형 투영을 통해 이미지 패치를 재구성
- stage 2( 미세조정)
- 기본 모델에서 인코더(ViT-large)만 사용
- 다양한 질병 범주에 대한 확률을 생성, 레이블 스무딩을 적용
총 104만 개의 CXR 이미지를 포함하는 데이터셋(30.5%: 개인 데이터셋, 69.5%:공개 데이터셋)
흉부 X선에 대해 음성 선별
- 공개 데이터 셋: 평균 AUC 79.1%
- 개인 데이터 셋 : 평균 AUC 82.7%
COVID/결핵 선별(8개 공개 데이터셋)
- 높은 AUROC 값:SL-ImageNet (p < 0.001) , SSL-ImageNet (p < 0.001)과 비교하여 통계적으로 유의미하게 높은 값