Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance
Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance
11institutetext: The University of Sydney Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Shuchang Ye Mingyuan Meng Mingjian Li Dagan Feng Jinman Kim Abstract Segmentation of infect
arxiv.org
GitHub - ShuchangYe-bib/SGSeg: Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X
Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance" MICCAI 2024 (Simplified Version) - ShuchangYe-bib/SGSeg
github.com
- 논문 작성일: 2024.09.07
- 제출된 학회: MICCAI 2024
Abstract
- 본 논문은 흉부 X-ray 영상 분할에서 텍스트 입력 없이 추론이 가능한(Self-guided) 새로운 프레임워크(SGSeg)를 제안한다. 최근에 임상 보고서의 텍스트를 활용해 이미지를 분할하는 멀티 모달(Language-guided) 방식이 주목받고 있지만 이 방법은 임상 텍스트가 있어야만 동작하기에 실제 진단 보다 분석에만 사용될 수 있다.
- 제안하는 방법인 LERG (Localization-Enhanced Report Generation)는 객체 검출기(object detector)와 위치를 기반한 어텐션 모듈(location-based attention aggregator)을 포함하여, 텍스트로부터 위치 정보를 추출하고 이를 통해 신호(self-guidance)를 생성한다.
- 실험 결과 QaTa-COV19 데이터셋에서 기존의 이미지 기반(segmentation only) 모델보다 우수했으며 텍스트를 사용하는 최신 기법에 근접한 성능을 보였다.
1. Introduction
- 전문의가 하는 영상 분할은 기존 언어 지도 분할 방법은 추론 단계에서 임상 보고서를 필요로 하여 실제 진단 프로토콜(영상 분석 → 보고서 작성)과의 불일치 발생
- 의사가 직접 분할하는 작업은 노동 집약적이며 일관성이 떨어지기 쉬움 → 딥러닝 기반 자동 분할 기술 이용
- U-Net의 다양한 모델 등장(U-Net++, Attention U-Net, Trans U-Net, Swin U-Net 등) → 의학 영상의 복잡성으로 인해 병변을 정확히 식별하는 데 여전히 한계가 존재
- 이미지와 텍스트를 함께 사용하는 멀티모달 학습이 단일 모달보다 더 뛰어난 성능을 보이며 CLIP과, LViT 같은 모델이 주목받음 → 추론 단계에서 텍스트를 필요로 하여 임상 적용에 제약이 됨
- 본 논문의 주요 기여 :
- SGSeg 프레임워크 제안 : 학습 시 텍스트를 활용하지만, 추론 시에는 텍스트 없이도 작동하는 Self-Guided Segmentation (SGSeg) 모델을 제안
- LERG 모듈 도입 : 객체 탐지기를 활용하여 질병 위치를 예측하고 분할에 도움되는 임상 보고서를 생성하는 Localization-Enhanced Report Generation 모듈을 설계
- 희소한 객체 예측 문제 해결 : 대부분의 객체 예측이 "클래스 없음"로 분류되는 문제를 해결하기 위해 위치 기반 어텐션 모듈을 통해 유효한 위치 정보를 강조
- 약한 지도 학습을 위한 클러스터링 : 보고서로부터 위치 정보를 추출하기 위해 위치 인식 의사 라벨 추출기를 설계하여 LERG 모듈의 약한 지도로 사용
2. Method
2.1. Self-guided segmentation framework (SGSeg)
- Language-guided U-Net
- LERG (Localization-Enhanced Report Generation) 모듈
- 학습 : 실제 임상 보고서를 입력으로 사용해 LERG에 약한 지도 학습을 제공한다.
- 추론 : LERG 모듈 생성한 보고서를 사용함으로써 텍스트 없이도 추론(text-free inference)이 가능해진다.
2.2. Language-guided U-Net
- 인코더(Downsampling)
- Conv-NeXt-T 사용 (ImageNet-1K 사전학습)
- 입력 이미지(224×224)를 단계적으로 7×7까지 축소 (4배씩 감소)
- 디코더(Upsampling)
- LanGuideMedSeg의 GuidedDecoder 구조 사용
- cross-modal attention으로 병변의 위치 정보와 이미지 특징을 결합
- 텍스트 인코더
- BERT 사용
- MIMIC 데이터셋에서 마스크된 언어 모델링과 멀티 모달 대조 학습으로 사전학습됨
2.3. Localization-enhanced Report Generation
2.3.1 Understanding Text’s Role in Language-guided Segmentation
- 연구팀은 텍스트가 분할 성능에 어떤 영향을 주는지 분석하기 위해 cross-modal attention 모듈을 이용해 각 단어의 중요도를 평가했다.
- 단어 중요도는 query(q)와 key(k) 벡터의 곱으로 계산됨
- 히트맵 결과 : “upper", “middle", “lower", “left", “right” 같은 위치 관련 단어에 높은 중요도가 나타남
- 이 결과는 병변의 정확한 위치를 파악함으로써 분할 성능 향상이 가능함을 보여줌
2.3.2. Location-aware pseudo-Label Extraction
- 보고서 생성을 위해 BERT를 사용해 병변 위치에 대한 설명을 임베딩한다.
- HDBSCAN 클러스터링을 적용해 이 임베딩들을 공간적으로 의미 있는 그룹으로 묶는다.
2.3.3. Weakly-supervised Localization-enhanced Report Generation
병변의 위치 중심 보고서를 자동 생성하여 분할에 활용하는 방식을 제안한다.
- 정답 위치 레이블이 없기 때문에 보고서에서 의사 레이블(pseudo-label)을 추출해 약한 지도 학습에 사용한다.
- 객체 탐지는 RT-DETR 구조 기반으로
- ResNet50 백본 → CNN으로 이미지 압축
- Self Attention과 Cross-Scale Feature Fusion (CCFM)을 통해 다양한 스케일의 특징을 통합
- 객체 디코더가 이 특징을 기반으로 위치 예측 수행
$$
Q = \textit{Decode}(\text{CCFM}(F_{\text{CNN}}(I)))
$$
- 예측된 벡터 $p$와 의사 레이블 $y$간의 정렬은 Binary Cross-Entropy Loss로 최적화한다.
- 6개의 위치 범주(양쪽 폐의 upper/middle/lower)에 대해 학습
$$
Loss = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(p_i) + (1 - y_i) \cdot \log(1 - p_i) \right]
$$
- 6개의 위치 범주(양쪽 폐의 upper/middle/lower)에 대해 학습
- 이 예측 결과를 감염 부위의 정확한 위치 정보로 디코딩하고 이를 텍스트 설명으로 변환해 분할 가이드로 사용한다.
2.3.4. Location-based Attention Aggregation
어텐션을 통해 여러 객체 예측을 위치 중심 정보로 통합한다.
- 객체 디코더에서 나온 예측 결과를 위치 정보로 정제하는 역할을 한다.
- 위치 쿼리 벡터 $q$를 초기화
- 입력된 객체 예측 $X$와 $q$간 행렬곱으로 가중치를 계산
$$
A=softmax(Xq^T)\cdot{}X
$$ - 위치 정보를 담은 벡터 $A$를 생성
3. Experiments
3.1. Dataset
- QaTa-COV19 데이터셋 : 5,894개 COVID-19 양성 흉부 X-ray
- 전문가 주석이 달린 segmentation mask
3.2. Experiment Setup
- 병변 위치 예측과 보고서 생성 성능을 통해 SGSeg가 텍스트 없이도 추론이 가능한 구조임을 입증하려 했다.
3.3. Implementation Details
- 입력 이미지 크기: 224×224
- cross-atention hidden dim: 768
- 프레임워크: PyTorch + PyTorch Lightning
- GPU: NVIDIA RTX A6000
- Optimizer: AdamW
- Scheduler: Cosine annealing (초기 $3\times10^{−4}$ → 최저 $<1\times10^{−6}$)
- 배치 사이즈: 32
- 데이터 증강: 랜덤 크롭, 마스킹, 회전 등 적용
4. Result and Discussion
4.1. Comparison with Existing Methods
- 본 논문에서 제안하는 SGSeg는 기존 단일 모달(segmentation only) 모델보다 성능이 우수하며 최신 멀티모달 모델들과 거의 유사한 성능을 보인다.
4.2. Ablation Study
- Without Text
- 텍스트 없이 순수 단일 모달 분할
- 기준 성능 (가장 낮음)
- Visual-language Pre-training
- CLIP 기반 사전학습 후 단일 모달 분할로 미세조정(fine-tuning)
- 텍스트 없이도 약간 향상된 성능
- Self-Guidance
- 추론 시 생성된 리포트 사용
- SGSeg의 핵심 구조
- 성능 크게 향상, 텍스트 없이도 효과적인 분할 가능
- Full Text
- 추론 시 실제 임상 보고서(ground-truth text) 사용
- 최고 성능 하지만 실제 임상 적용 어려움
4.3. Visualization
- 학습 시에는 정답 텍스트, 추론 시에는 생성된 텍스트를 사용하게 되면서 분할 성능에 일정한 영향을 준다.
- 생성된 리포트의 정확도가 낮을 경우, 성능 저하가 소폭 있지만 안정적임
- 어텐션 맵 분석 결과, 모델은 병변 부위에 정확하게 주목하며 분할에 중요한 집중 패턴을 보임
5. Conclusion
- 텍스트 없이도 추론 가능한 Self-Guided Segmentation(SGSeg) 프레임워크를 제안하여 기존 유니 모달 방법보다 뛰어난 성능을 보였고, 텍스트를 사용하는 멀티 모달 방법들과도 근접한 성능을 달성하였다.
- 한계점: QaTa-COV19 데이터셋만을 활용