본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 주서영 - Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

by 영써 2025. 4. 5.

Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

 

Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance

11institutetext: The University of Sydney Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance Shuchang Ye    Mingyuan Meng    Mingjian Li    Dagan Feng    Jinman Kim Abstract Segmentation of infect

arxiv.org

 

GitHub - ShuchangYe-bib/SGSeg: Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X

Official code for "SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance" MICCAI 2024 (Simplified Version) - ShuchangYe-bib/SGSeg

github.com

  • 논문 작성일: 2024.09.07
  • 제출된 학회: MICCAI 2024

Abstract

  • 본 논문은 흉부 X-ray 영상 분할에서 텍스트 입력 없이 추론이 가능한(Self-guided) 새로운 프레임워크(SGSeg)를 제안한다. 최근에 임상 보고서의 텍스트를 활용해 이미지를 분할하는 멀티 모달(Language-guided) 방식이 주목받고 있지만 이 방법은 임상 텍스트가 있어야만 동작하기에 실제 진단 보다 분석에만 사용될 수 있다.
  • 제안하는 방법인 LERG (Localization-Enhanced Report Generation)는 객체 검출기(object detector)와 위치를 기반한 어텐션 모듈(location-based attention aggregator)을 포함하여, 텍스트로부터 위치 정보를 추출하고 이를 통해 신호(self-guidance)를 생성한다.
  • 실험 결과 QaTa-COV19 데이터셋에서 기존의 이미지 기반(segmentation only) 모델보다 우수했으며 텍스트를 사용하는 최신 기법에 근접한 성능을 보였다.

1. Introduction

  • 전문의가 하는 영상 분할은 기존 언어 지도 분할 방법은 추론 단계에서 임상 보고서를 필요로 하여 실제 진단 프로토콜(영상 분석 → 보고서 작성)과의 불일치 발생
  • 의사가 직접 분할하는 작업은 노동 집약적이며 일관성이 떨어지기 쉬움 → 딥러닝 기반 자동 분할 기술 이용
  • U-Net의 다양한 모델 등장(U-Net++, Attention U-Net, Trans U-Net, Swin U-Net 등) → 의학 영상의 복잡성으로 인해 병변을 정확히 식별하는 데 여전히 한계가 존재
  • 이미지와 텍스트를 함께 사용하는 멀티모달 학습이 단일 모달보다 더 뛰어난 성능을 보이며 CLIP과, LViT 같은 모델이 주목받음 → 추론 단계에서 텍스트를 필요로 하여 임상 적용에 제약이 됨
  • 본 논문의 주요 기여 :
    • SGSeg 프레임워크 제안 : 학습 시 텍스트를 활용하지만, 추론 시에는 텍스트 없이도 작동하는 Self-Guided Segmentation (SGSeg) 모델을 제안
    • LERG 모듈 도입 : 객체 탐지기를 활용하여 질병 위치를 예측하고 분할에 도움되는 임상 보고서를 생성하는 Localization-Enhanced Report Generation 모듈을 설계
    • 희소한 객체 예측 문제 해결 : 대부분의 객체 예측이 "클래스 없음"로 분류되는 문제를 해결하기 위해 위치 기반 어텐션 모듈을 통해 유효한 위치 정보를 강조
    • 약한 지도 학습을 위한 클러스터링 : 보고서로부터 위치 정보를 추출하기 위해 위치 인식 의사 라벨 추출기를 설계하여 LERG 모듈의 약한 지도로 사용

2. Method

2.1. Self-guided segmentation framework (SGSeg)

Fig1. 본 논문에서 제안된 SGSeg의 구조: 언어 기반 U-Net과 localization이 강화된 보고서 생성 프로세스를 보여줌

  1. Language-guided U-Net
  2. LERG (Localization-Enhanced Report Generation) 모듈
  • 학습 : 실제 임상 보고서를 입력으로 사용해 LERG에 약한 지도 학습을 제공한다.
  • 추론 : LERG 모듈 생성한 보고서를 사용함으로써 텍스트 없이도 추론(text-free inference)이 가능해진다.

2.2. Language-guided U-Net

  • 인코더(Downsampling)
    • Conv-NeXt-T 사용 (ImageNet-1K 사전학습)
    • 입력 이미지(224×224)를 단계적으로 7×7까지 축소 (4배씩 감소)
  • 디코더(Upsampling)
    • LanGuideMedSeg의 GuidedDecoder 구조 사용
    • cross-modal attention으로 병변의 위치 정보와 이미지 특징을 결합
  • 텍스트 인코더
    • BERT 사용
    • MIMIC 데이터셋에서 마스크된 언어 모델링과 멀티 모달 대조 학습으로 사전학습됨

2.3. Localization-enhanced Report Generation

2.3.1 Understanding Text’s Role in Language-guided Segmentation

  • 연구팀은 텍스트가 분할 성능에 어떤 영향을 주는지 분석하기 위해 cross-modal attention 모듈을 이용해 각 단어의 중요도를 평가했다.
    • 단어 중요도는 query(q)와 key(k) 벡터의 곱으로 계산됨
    • 히트맵 결과 : “upper", “middle", “lower", “left", “right” 같은 위치 관련 단어에 높은 중요도가 나타남
    • 이 결과는 병변의 정확한 위치를 파악함으로써 분할 성능 향상이 가능함을 보여줌

Fig2. 단어 중요도의 예시로 보고서의 각 토큰에 대한 주의 집중도를 시각화

2.3.2. Location-aware pseudo-Label Extraction

  • 보고서 생성을 위해 BERT를 사용해 병변 위치에 대한 설명을 임베딩한다.
  • HDBSCAN 클러스터링을 적용해 이 임베딩들을 공간적으로 의미 있는 그룹으로 묶는다.

2.3.3. Weakly-supervised Localization-enhanced Report Generation

병변의 위치 중심 보고서를 자동 생성하여 분할에 활용하는 방식을 제안한다.

  • 정답 위치 레이블이 없기 때문에 보고서에서 의사 레이블(pseudo-label)을 추출해 약한 지도 학습에 사용한다.
  • 객체 탐지는 RT-DETR 구조 기반으로
    • ResNet50 백본 → CNN으로 이미지 압축
    • Self Attention과 Cross-Scale Feature Fusion (CCFM)을 통해 다양한 스케일의 특징을 통합
    • 객체 디코더가 이 특징을 기반으로 위치 예측 수행
      $$
      Q = \textit{Decode}(\text{CCFM}(F_{\text{CNN}}(I)))
      $$
  • 예측된 벡터 $p$와 의사 레이블 $y$간의 정렬은 Binary Cross-Entropy Loss로 최적화한다.
    • 6개의 위치 범주(양쪽 폐의 upper/middle/lower)에 대해 학습
      $$
      Loss = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(p_i) + (1 - y_i) \cdot \log(1 - p_i) \right]
      $$
  • 이 예측 결과를 감염 부위의 정확한 위치 정보로 디코딩하고 이를 텍스트 설명으로 변환해 분할 가이드로 사용한다.

2.3.4. Location-based Attention Aggregation

어텐션을 통해 여러 객체 예측을 위치 중심 정보로 통합한다.

  • 객체 디코더에서 나온 예측 결과를 위치 정보로 정제하는 역할을 한다.
    • 위치 쿼리 벡터 $q$를 초기화
    • 입력된 객체 예측 $X$와 $q$간 행렬곱으로 가중치를 계산
      $$
      A=softmax(Xq^T)\cdot{}X
      $$
    • 위치 정보를 담은 벡터 $A$를 생성

3. Experiments

3.1. Dataset

  • QaTa-COV19 데이터셋 : 5,894개 COVID-19 양성 흉부 X-ray
  • 전문가 주석이 달린 segmentation mask

3.2. Experiment Setup

  • 병변 위치 예측과 보고서 생성 성능을 통해 SGSeg가 텍스트 없이도 추론이 가능한 구조임을 입증하려 했다.

3.3. Implementation Details

  • 입력 이미지 크기: 224×224
  • cross-atention hidden dim: 768
  • 프레임워크: PyTorch + PyTorch Lightning
  • GPU: NVIDIA RTX A6000
  • Optimizer: AdamW
  • Scheduler: Cosine annealing (초기 $3\times10^{−4}$ → 최저 $<1\times10^{−6}$)
  • 배치 사이즈: 32
  • 데이터 증강: 랜덤 크롭, 마스킹, 회전 등 적용

4. Result and Discussion

4.1. Comparison with Existing Methods

  • 본 논문에서 제안하는 SGSeg는 기존 단일 모달(segmentation only) 모델보다 성능이 우수하며 최신 멀티모달 모델들과 거의 유사한 성능을 보인다.

Table1. SGSeg와 유니 모달, 멀티 모달 방법과의 비교
Fig3. Uni-Modal과 Multi Modal 간 Segmentation

4.2. Ablation Study

Table2. Ablation studies

  1. Without Text
    • 텍스트 없이 순수 단일 모달 분할
    • 기준 성능 (가장 낮음)
  2. Visual-language Pre-training
    • CLIP 기반 사전학습 후 단일 모달 분할로 미세조정(fine-tuning)
    • 텍스트 없이도 약간 향상된 성능
  3. Self-Guidance
    • 추론 시 생성된 리포트 사용
    • SGSeg의 핵심 구조
    • 성능 크게 향상, 텍스트 없이도 효과적인 분할 가능
  4. Full Text
    • 추론 시 실제 임상 보고서(ground-truth text) 사용
    • 최고 성능 하지만 실제 임상 적용 어려움

4.3. Visualization

Fig4. 생성된 텍스트와 분할 결과 간의 관계 비교 분석

  • 학습 시에는 정답 텍스트, 추론 시에는 생성된 텍스트를 사용하게 되면서 분할 성능에 일정한 영향을 준다.
  • 생성된 리포트의 정확도가 낮을 경우, 성능 저하가 소폭 있지만 안정적임

Fig5. 입력 이미지에 대한 모델의 attention 분포 시각화는 다음과 같이 순차적으로 배열됨 : 이미지, 실측 분할, 어텐션 맵

  • 어텐션 맵 분석 결과, 모델은 병변 부위에 정확하게 주목하며 분할에 중요한 집중 패턴을 보임

5. Conclusion

  • 텍스트 없이도 추론 가능한 Self-Guided Segmentation(SGSeg) 프레임워크를 제안하여 기존 유니 모달 방법보다 뛰어난 성능을 보였고, 텍스트를 사용하는 멀티 모달 방법들과도 근접한 성능을 달성하였다.
  • 한계점: QaTa-COV19 데이터셋만을 활용