Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

11institutetext: The University of Sydney Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Shuchang Ye Mingyuan Meng Mingjian Li Dagan Feng Jinman Kim Abstract Segmentation of infect

arxiv.org

GitHub - ShuchangYe-bib/SGSeg: Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X

Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance" MICCAI 2024 (Simplified Version) - ShuchangYe-bib/SGSeg

github.com

논문 작성일: 2024.09.07
제출된 학회: MICCAI 2024

Abstract

본 논문은 흉부 X-ray 영상 분할에서 텍스트 입력 없이 추론이 가능한(Self-guided) 새로운 프레임워크(SGSeg)를 제안한다. 최근에 임상 보고서의 텍스트를 활용해 이미지를 분할하는 멀티 모달(Language-guided) 방식이 주목받고 있지만 이 방법은 임상 텍스트가 있어야만 동작하기에 실제 진단 보다 분석에만 사용될 수 있다.
제안하는 방법인 LERG (Localization-Enhanced Report Generation)는 객체 검출기(object detector)와 위치를 기반한 어텐션 모듈(location-based attention aggregator)을 포함하여, 텍스트로부터 위치 정보를 추출하고 이를 통해 신호(self-guidance)를 생성한다.
실험 결과 QaTa-COV19 데이터셋에서 기존의 이미지 기반(segmentation only) 모델보다 우수했으며 텍스트를 사용하는 최신 기법에 근접한 성능을 보였다.

1. Introduction

전문의가 하는 영상 분할은 기존 언어 지도 분할 방법은 추론 단계에서 임상 보고서를 필요로 하여 실제 진단 프로토콜(영상 분석 → 보고서 작성)과의 불일치 발생
의사가 직접 분할하는 작업은 노동 집약적이며 일관성이 떨어지기 쉬움 → 딥러닝 기반 자동 분할 기술 이용
U-Net의 다양한 모델 등장(U-Net++, Attention U-Net, Trans U-Net, Swin U-Net 등) → 의학 영상의 복잡성으로 인해 병변을 정확히 식별하는 데 여전히 한계가 존재
이미지와 텍스트를 함께 사용하는 멀티모달 학습이 단일 모달보다 더 뛰어난 성능을 보이며 CLIP과, LViT 같은 모델이 주목받음 → 추론 단계에서 텍스트를 필요로 하여 임상 적용에 제약이 됨
본 논문의 주요 기여 :
- SGSeg 프레임워크 제안 : 학습 시 텍스트를 활용하지만, 추론 시에는 텍스트 없이도 작동하는 Self-Guided Segmentation (SGSeg) 모델을 제안
- LERG 모듈 도입 : 객체 탐지기를 활용하여 질병 위치를 예측하고 분할에 도움되는 임상 보고서를 생성하는 Localization-Enhanced Report Generation 모듈을 설계
- 희소한 객체 예측 문제 해결 : 대부분의 객체 예측이 "클래스 없음"로 분류되는 문제를 해결하기 위해 위치 기반 어텐션 모듈을 통해 유효한 위치 정보를 강조
- 약한 지도 학습을 위한 클러스터링 : 보고서로부터 위치 정보를 추출하기 위해 위치 인식 의사 라벨 추출기를 설계하여 LERG 모듈의 약한 지도로 사용

2. Method

2.1. Self-guided segmentation framework (SGSeg)

Fig1. 본 논문에서 제안된 SGSeg의 구조: 언어 기반 U-Net과 localization이 강화된 보고서 생성 프로세스를 보여줌

Language-guided U-Net
LERG (Localization-Enhanced Report Generation) 모듈

학습 : 실제 임상 보고서를 입력으로 사용해 LERG에 약한 지도 학습을 제공한다.
추론 : LERG 모듈 생성한 보고서를 사용함으로써 텍스트 없이도 추론(text-free inference)이 가능해진다.

2.2. Language-guided U-Net

인코더(Downsampling)
- Conv-NeXt-T 사용 (ImageNet-1K 사전학습)
- 입력 이미지(224×224)를 단계적으로 7×7까지 축소 (4배씩 감소)
디코더(Upsampling)
- LanGuideMedSeg의 GuidedDecoder 구조 사용
- cross-modal attention으로 병변의 위치 정보와 이미지 특징을 결합
텍스트 인코더
- BERT 사용
- MIMIC 데이터셋에서 마스크된 언어 모델링과 멀티 모달 대조 학습으로 사전학습됨

2.3. Localization-enhanced Report Generation

2.3.1 Understanding Text’s Role in Language-guided Segmentation

연구팀은 텍스트가 분할 성능에 어떤 영향을 주는지 분석하기 위해 cross-modal attention 모듈을 이용해 각 단어의 중요도를 평가했다.
- 단어 중요도는 query(q)와 key(k) 벡터의 곱으로 계산됨
- 히트맵 결과 : “upper", “middle", “lower", “left", “right” 같은 위치 관련 단어에 높은 중요도가 나타남
- 이 결과는 병변의 정확한 위치를 파악함으로써 분할 성능 향상이 가능함을 보여줌

Fig2. 단어 중요도의 예시로 보고서의 각 토큰에 대한 주의 집중도를 시각화

2.3.2. Location-aware pseudo-Label Extraction

보고서 생성을 위해 BERT를 사용해 병변 위치에 대한 설명을 임베딩한다.
HDBSCAN 클러스터링을 적용해 이 임베딩들을 공간적으로 의미 있는 그룹으로 묶는다.

2.3.3. Weakly-supervised Localization-enhanced Report Generation

병변의 위치 중심 보고서를 자동 생성하여 분할에 활용하는 방식을 제안한다.

정답 위치 레이블이 없기 때문에 보고서에서 의사 레이블(pseudo-label)을 추출해 약한 지도 학습에 사용한다.
객체 탐지는 RT-DETR 구조 기반으로
- ResNet50 백본 → CNN으로 이미지 압축
- Self Attention과 Cross-Scale Feature Fusion (CCFM)을 통해 다양한 스케일의 특징을 통합
- 객체 디코더가 이 특징을 기반으로 위치 예측 수행
  $$
  Q = \textit{Decode}(\text{CCFM}(F_{\text{CNN}}(I)))
  $$
예측된 벡터 $p$와 의사 레이블 $y$간의 정렬은 Binary Cross-Entropy Loss로 최적화한다.
- 6개의 위치 범주(양쪽 폐의 upper/middle/lower)에 대해 학습
  $$
  Loss = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(p_i) + (1 - y_i) \cdot \log(1 - p_i) \right]
  $$
이 예측 결과를 감염 부위의 정확한 위치 정보로 디코딩하고 이를 텍스트 설명으로 변환해 분할 가이드로 사용한다.

2.3.4. Location-based Attention Aggregation

어텐션을 통해 여러 객체 예측을 위치 중심 정보로 통합한다.

객체 디코더에서 나온 예측 결과를 위치 정보로 정제하는 역할을 한다.
- 위치 쿼리 벡터 $q$를 초기화
- 입력된 객체 예측 $X$와 $q$간 행렬곱으로 가중치를 계산
  $$
  A=softmax(Xq^T)\cdot{}X
  $$
- 위치 정보를 담은 벡터 $A$를 생성

3. Experiments

3.1. Dataset

QaTa-COV19 데이터셋 : 5,894개 COVID-19 양성 흉부 X-ray
전문가 주석이 달린 segmentation mask

3.2. Experiment Setup

병변 위치 예측과 보고서 생성 성능을 통해 SGSeg가 텍스트 없이도 추론이 가능한 구조임을 입증하려 했다.

3.3. Implementation Details

입력 이미지 크기: 224×224
cross-atention hidden dim: 768
프레임워크: PyTorch + PyTorch Lightning
GPU: NVIDIA RTX A6000
Optimizer: AdamW
Scheduler: Cosine annealing (초기 $3\times10^{−4}$ → 최저 $<1\times10^{−6}$)
배치 사이즈: 32
데이터 증강: 랜덤 크롭, 마스킹, 회전 등 적용

4. Result and Discussion

4.1. Comparison with Existing Methods

본 논문에서 제안하는 SGSeg는 기존 단일 모달(segmentation only) 모델보다 성능이 우수하며 최신 멀티모달 모델들과 거의 유사한 성능을 보인다.

Fig3. Uni-Modal과 Multi Modal 간 Segmentation

4.2. Ablation Study

Without Text
- 텍스트 없이 순수 단일 모달 분할
- 기준 성능 (가장 낮음)
Visual-language Pre-training
- CLIP 기반 사전학습 후 단일 모달 분할로 미세조정(fine-tuning)
- 텍스트 없이도 약간 향상된 성능
Self-Guidance
- 추론 시 생성된 리포트 사용
- SGSeg의 핵심 구조
- 성능 크게 향상, 텍스트 없이도 효과적인 분할 가능
Full Text
- 추론 시 실제 임상 보고서(ground-truth text) 사용
- 최고 성능 하지만 실제 임상 적용 어려움

4.3. Visualization

학습 시에는 정답 텍스트, 추론 시에는 생성된 텍스트를 사용하게 되면서 분할 성능에 일정한 영향을 준다.
생성된 리포트의 정확도가 낮을 경우, 성능 저하가 소폭 있지만 안정적임

Fig5. 입력 이미지에 대한 모델의 attention 분포 시각화는 다음과 같이 순차적으로 배열됨 : 이미지, 실측 분할, 어텐션 맵

어텐션 맵 분석 결과, 모델은 병변 부위에 정확하게 주목하며 분할에 중요한 집중 패턴을 보임

5. Conclusion

텍스트 없이도 추론 가능한 Self-Guided Segmentation(SGSeg) 프레임워크를 제안하여 기존 유니 모달 방법보다 뛰어난 성능을 보였고, 텍스트를 사용하는 멀티 모달 방법들과도 근접한 성능을 달성하였다.
한계점: QaTa-COV19 데이터셋만을 활용

'Computer Vision' 카테고리의 다른 글

[2025-1] 최민서 - Maximum Likelihood Training of Score-Based Diffusion Models (0)	2025.05.02
[2025-1] 전윤경-CLEAR: Comprehensive Learning EnabledAdversarial Reconstruction for Subtle StructureEnhanced Low-Dose CT Imaging (1)	2025.05.02
[2025-1] 전연주 - Textmatch: Using Text Prompts to Improve Semisupervised Medical Image Segmentation (0)	2025.04.04
[2025-1] 최민서 - Score-based Generative Modeling through Stochastic Differential Equations (1)	2025.04.04
[2025-1] 박지원 - InternVL (0)	2025.04.03

[2025-1] 주서영 - Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

Abstract

1. Introduction

2. Method

2.1. Self-guided segmentation framework (SGSeg)

2.2. Language-guided U-Net

2.3. Localization-enhanced Report Generation

2.3.1 Understanding Text’s Role in Language-guided Segmentation

2.3.2. Location-aware pseudo-Label Extraction

2.3.3. Weakly-supervised Localization-enhanced Report Generation

2.3.4. Location-based Attention Aggregation

3. Experiments

3.1. Dataset

3.2. Experiment Setup

3.3. Implementation Details

4. Result and Discussion

4.1. Comparison with Existing Methods

4.2. Ablation Study

4.3. Visualization

5. Conclusion

'Computer Vision' 카테고리의 다른 글

티스토리툴바

[2025-1] 주서영 - Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

Abstract

1. Introduction

2. Method

2.1. Self-guided segmentation framework (SGSeg)

2.2. Language-guided U-Net

2.3. Localization-enhanced Report Generation

2.3.1 Understanding Text’s Role in Language-guided Segmentation

2.3.2. Location-aware pseudo-Label Extraction

2.3.3. Weakly-supervised Localization-enhanced Report Generation

2.3.4. Location-based Attention Aggregation

3. Experiments

3.1. Dataset

3.2. Experiment Setup

3.3. Implementation Details

4. Result and Discussion

4.1. Comparison with Existing Methods

4.2. Ablation Study

4.3. Visualization

5. Conclusion

'Computer Vision' 카테고리의 다른 글

관련글

티스토리툴바