논문 링크: https://www.nature.com/articles/s41598-024-69981-5.pdf
저자: Santhosh Raminedi, S. Shridevi & Daehan Won
학회: Scientific Reports (Nature Publishing Group)
발행일: 20 August 2024
Keywords: Vision transformer, Generative pre-trained transformer, Retrieval augmentation
Introduction
1. 배경
X-ray 및 MRI(Magnetic Resonance Imaging)와 같은 의료 영상 기술은 인체 내부를 시각화하여 질병을 진단하는 데 중요한 역할을 한다.
그러나 방사선 영상(radiological image)의 해석 과정은 매우 복잡하고 시간 소모적이며, 전문가의 개입이 필수적이다.
최근 인공지능(AI) 기술이 발전함에 따라, 방사선 영상에서 의료 보고서를 자동으로 생성하는 연구가 활발하게 진행되고 있다.
딥러닝 기반의 다양한 프레임워크가 개발되었으며, 이들은 의료 영상을 자동 분석하고, 정확하고 포괄적인 보고서를 생성하는 것을 목표로 한다.
그러나 여전히 방사선 영상의 해석과 보고서 작성은 시간이 오래 걸리고, 전문가들에게 큰 부담을 주는 작업이다.
딥러닝 기술의 급속한 발전은 복잡한 X-ray 데이터셋에서 특징을 추출하고 패턴을 학습하는 방사선 영상 분석의 혁신을 이끌었다.
2. 기존 연구의 한계
기존 연구에서는 CNN-RNN(Convolutional Neural Network - Recurrent Neural Network) 기반 아키텍처를 활용하여 의료 Image Captioning(이미지에서 문장을 생성)과 자동 보고서 생성을 시도해왔다.
하지만 CNN-RNN 모델에는 다음과 같은 한계점이 존재한다.
- CNN 기반 특징 추출기의 한계
- CNN은 의료 영상의 Local 특징을 추출하는 데 적합하지만, Global 문맥을 학습하는 능력이 제한적이다.
- RNN의 구조적 문제
- RNN 기반 모델은 긴 시퀀스를 학습할 때 Vanishing Gradient 문제가 발생할 수 있으며, 병렬 연산이 어렵고 속도가 느리다.
- Transformer 기반 모델의 가능성
- Transformer 모델은 병렬 연산이 가능하고, NLP에서 문맥적 관계(Contextual Relationships) 학습에 뛰어난 성능을 보인다.
- 사전 학습된 트랜스포머 모델(GPT-2 등)을 의료 영상 데이터에 맞게 Fine-tuning하면 더욱 정밀한 보고서를 생성할 수 있음이 최근 연구에서 확인되었다.
3. 연구 목표 및 방법
본 논문에서는 Vision Transformer(ViT)와 GPT-2를 결합한 새로운 Multi-modal 트랜스포머 모델(ViGPT2)을 제안한다.
이를 통해 의료 영상에서 정보를 추출하고, 더 정밀하고 포괄적인 보고서를 생성하는 모델을 구축하는 것이 목표이다.
- Vision Transformer(ViT)를 Encoder로 사용
- ViT는 CNN과 달리 이미지를 작은 Patch 단위로 나누고, 이를 Vector Embedding으로 변환하여,
더 효과적으로 의료 영상의 전역적 특징을 학습할 수 있도록 한다. - Multi-Head Self-Attention(MSA) 메커니즘을 활용하여, 의료 영상 내 중요한 패치(영역)에 집중할 수 있다.
- 각 블록마다 Layer Normalization 및 Residual Connection을 적용하여 모델 안정성을 높임.
- ViT는 CNN과 달리 이미지를 작은 Patch 단위로 나누고, 이를 Vector Embedding으로 변환하여,
- BERT 기반 BEiT(BERT pre-training Image Transformer) 및 DEiT(Data Efficient Image Transformer) 적용
- BEiT-GPT2 (BEiTGPT2)
- BEiT는 ViT와 유사하게 이미지를 패치로 변환하지만, Self-Attention 연산을 최적화하여 계산 복잡도를 줄이는 Down-striding 메커니즘을 포함함.
- DEiT-GPT2 (DEiTGPT2)
- DEiT는 데이터 효율성을 높이는 전략을 사용하여 더 적은 데이터로도 강건한 학습이 가능하도록 설계됨.
- 사전 학습 단계에서 Data Augmentation 기법을 적용하여, 의료 영상의 다양성을 증가시키고 모델의 일반화 성능을 개선함.
- BEiT-GPT2 (BEiTGPT2)
- GPT-2를 Decoder로 사용
- GPT-2는 Generative Model로서 의료 보고서를 문장 단위로 생성하는 역할을 수행.
- Self-Attention 및 Cross-Attention 기법을 적용하여, 이미지 특징과 텍스트를 효과적으로 매핑함.
- Retrieval Augmentation 기법 적용
- Chroma Vector Store와 Lang Chain을 활용하여 보고서를 생성한 후, 추가적인 의료 정보를 검색하여 포함함.
- 이를 통해 의료적 신뢰성을 높이고, 더 포괄적인 보고서를 생성할 수 있도록 개선함.
4. Contributions
본 연구의 주요 기여는 다음과 같다.
- 새로운 다중 모달 트랜스포머 기반 아키텍처(ViGPT2) 제안
- Vision Transformer(ViT)와 GPT-2를 결합하여 기존 모델보다 뛰어난 성능을 보이는 새로운 모델을 설계.
- 다양한 Vision Transformer 모델(ViT, BEiT, DEiT) 비교 분석
- 각 모델을 의료 영상의 특징 추출기로 활용하고, 성능을 비교하여 최적의 아키텍처를 선정.
- Cross-Attention을 활용한 의료 영상 및 텍스트 정보 통합
- 의료 영상에서 추출된 Structural Information와 자연어 보고서의 텍스트 정보를 효과적으로 결합.
- 다양한 평가 지표를 활용한 모델 성능 분석
- 모델 성능을 단어 중첩 기반 지표(BLEU, ROUGE-L 등) 및 의미적 유사도 기반 지표(Skip-Thought Cosine Similarity, Greedy Matching 등)로 평가.
- Retrieval Augmentation을 활용한 보고서 품질 향상
- Chroma Vector Store 및 Lang Chain을 활용하여, 생성된 보고서에 추가적인 의료 정보를 보강.
Discussion
(1) Multi-view CNN-RNN 기반 모델
- MvH (Multi-view Hierarchical) 모델
- Encoder-Decoder 구조를 활용한 자동 보고서 생성 모델을 제안.
- Multi-view CNN 인코더와 개념적으로 확장된 Hierarchical LSTM 디코더를 결합.
- 세 가지 주요 과정으로 구성:
- 의료 영상의 사전 학습 (Pre-training on Images)
- 의료 보고서에서 중요한 정보 추출 (Extracting Crucial Information)
- 영상과 텍스트를 결합하여 보고서 생성 (Generating Reports Using Image-Text Fusion)
(2) Multi-modal 접근 방식
- IU-X-ray 및 MIMIC-CXR 데이터셋을 기반으로 연구 진행.
- 보고서의 진단 소견과 X-ray 영상 특징 간의 관계를 고려한 멀티모달 정렬(Multi-modal Alignment) 모델을 제안.
- 지식 기반 모듈(Knowledge Base Module)과 멀티모달 정렬 모듈(Multi-modal Alignment Module)로 구성됨:
- 지식 기반 모듈은 보고서에서 텍스트 임베딩을 추출.
- 멀티모달 정렬 모듈은 X-ray 영상 특징과 질병 라벨을 매핑하여 보고서 생성을 개선.
(3) CNN-LSTM 기반 attention 모델
- 다중 모달 순환 신경망(Multimodal Recurrent Neural Network, RNN) 모델을 활용.
- CNN과 LSTM을 결합하여 영상 인코딩과 텍스트 생성 과정을 반복적으로 수행.
- 보고서의 결론(Impression)뿐만 아니라, 세부적인 소견(Findings)을 문장 단위로 생성하는 기능을 포함.
- 생성된 문장이 일관성을 유지하도록 어텐션 기반 입력(Attentional Input) 방식 도입.
(4) CNN-RNN 기반 annotation 모델
- CNN/RNN 아키텍처를 활용하여 흉부 X-ray 이미지에 주석(Annotation)을 자동으로 추가하는 모델을 제안.
- 정상(Normal) vs 질병(Disease) 분류 편향을 줄이기 위해 다양한 정규화 기법(Regularization Techniques) 적용.
- RNN의 다양한 변형 모델(LSTM, GRU) 테스트 진행.
(5) 메모리 기반 트랜스포머 모델
- Memory-driven Transformer 모델을 제안.
- 관계 기억(Relational Memory) 모듈을 활용하여, 보고서에서 중요한 정보를 저장하고 학습하도록 설계.
- CNN 기반 시각 특징 추출기(Visual Extractor) + 표준 트랜스포머 인코더(Standard Transformer Encoder) + 메모리 모듈이 포함된 디코더(Decoder with Memory Module)로 구성.
(6) 이상 병변 탐지 기반 모델
- 흉부 X-ray(CXR) 영상에서 이상 병변(Abnormalities)을 탐지하여 보고서 생성.
- 2단계 접근법(Two-Step Approach) 적용:
- Bounding Box 및 확률 점수를 기반으로 병변 탐지 (결절, 종양, 기흉 등 탐지 가능)
- 탐지된 병변 정보를 텍스트 임베딩으로 변환 후, 대형 언어 모델(LLM)로 세부 보고서 생성.
(7) HRNN + Soft Attention 모델
- HRNN(Hierarchical Recurrent Neural Network) 및 Soft Attention 기법을 활용한 모델.
- Image Captioning과 Topic Matching을 조합하여 보다 세밀한 의료 보고서 생성.
- 보고서의 세부 내용과 이상 소견을 Sentence Semantic Embeddings으로 변환하여 학습.
(8) GPT-2 기반 모델
- CDGPT2 (Chest X-ray dataset Finely Tuned with GPT-2) 모델을 제안.
- CheXNet(ResNet 기반 흉부 X-ray 분류기)를 인코더로 사용하여 태그(Tag) 및 의미적 특징(Semantic Features) 추출.
- GPT-2 모델을Fine-tuning하여 보고서를 생성.
(9) 입력 독립/의존 지식 통합 모델
- 입력 독립적 지식(General Knowledge)과 입력 의존적 지식(Specific Knowledge)을 통합하여 보고서 생성.
- Multi-head Attention과 지식 보강(Knowledge-enhancing) 접근법을 결합.
- 영상 특징과 의료 지식 기반(Knowledge Base)을 통합하여 기존 모델보다 우수한 성능을 보임.
(10) 다중 레벨 교차 모달 정렬(Unify, Align, and Refine) 모델
- UAR (Unify, Align, and Refine) 모델을 제안.
- 세 가지 모듈로 구성됨:
- Latent Space Unifier (LSU): 숨겨진 의미 공간 통합.
- Cross-Modal Representation Aligner (CRA): 영상과 텍스트 정렬.
- Text-to-Image Refiner (TIR): 의료 보고서에서 중요한 내용을 강조하여 개선.
(11) 트랜스포머 기반 보고서 생성 모델
- TrMRG (Transformer-based Medical Report Generation) 모델 제안.
- 인코더: Self-attention과 Positional Encoding 적용하여 X-ray 이미지 특징을 학습.
- 디코더: Softmax를 통해 확률 분포를 생성하며, Hidden States를 사용하여 보고서 생성.
(12) 유방 영상(Breast Radiology) 보고서 생성 모델
- 유방 영상의 병변을 학습하여 보고서를 자동 생성하는 모델.
- 세 가지 모듈로 구성됨:
- 병변 탐지(Lesion Detection)
- 영상 특징 추출(Image Feature Extractor)
- 보고서 생성용 확률적 의미 계층(Semantic Layer with Probability Lexicon)
(13) 그래프 기반 보고서 생성 모델
- KERP (Knowledge-Driven Encode, Retrieve, Paraphrase) 모델 제안.
- 의료 보고서를 비정상 소견(Abnormalities) 단위로 분해한 후,
- 인코더(Encoder)에서 시각적 정보를 추출
- 그래프 트랜스포머(Graph Transformer)로 텍스트를 그래프 구조로 변환
- 최종 보고서 생성
다양한 연구에서 CNN-RNN, 트랜스포머, 메모리 기반 접근법 등 여러 기법을 적용한 자동 의료 보고서 생성 모델이 제안됨.
트랜스포머 기반 접근법이 가장 유망한 해결책으로 떠오르고 있으며, 의료 영상 분석과 자연어 생성의 결합이 주요 연구 방향이 되고 있음.
본 연구에서 제안한 ViGPT2 모델은 기존 모델보다 높은 성능을 보이며, 의료 보고서 생성의 정확도를 개선할 가능성이 큼.
Methodology
본 연구에서 제안하는 모델은 세 가지 주요 구성 요소로 이루어져 있다.
- Transformer 기반 인코더(Encoder)
- 의료 영상에서 이상 소견(Abnormalities)을 탐지하고, 훈련 가능한 시각적 특징(Visual Features)으로 변환.
- 기존 CNN과 달리 Vision Transformer(ViT)를 활용하여 더 넓은 Context과 Global 정보를 학습.
- GPT-2 기반 디코더(Decoder)
- 인코더에서 추출한 시각적 특징과 보고서의 Textual Embeddings을 학습.
- 최종적으로 의료 소견이 포함된 포괄적인 보고서를 생성.
- Chroma Vector Store & Lang Chain 모듈
- 디코더가 생성한 보고서를 검색 기반 정보 보강(Retrieval Augmentation) 기법을 통해 개선.
- 기존 보고서 데이터베이스에서 유사한 사례를 찾아 추가 정보 반영.
1. Encoder for feature extractor (ViT 기반)
기존 모델들이 CNN 기반 Convolutional Filters를 활용하여 특징을 추출하는 반면,
본 연구에서는 Self-Attention 기법을 적용한 ViT를 활용하여 더 넓은 문맥적 정보를 학습한다.
- 입력 이미지의 처리 과정
- 입력 이미지를 작은 Patch들로 분할하고, 각 패치를 Linear Projection 레이어를 거쳐 낮은 차원의 벡터로 변환.
- 각 패치의 Spatial Relationships를 유지하기 위해 Positional Embeddings 추가.
- MSA(Multi-Head Self-Attention) 기법을 활용하여, 의료 영상 내 서로 다른 부위 간의 관계를 학습.
- Layer Normalization(LN)과 Residual Connection을 사용하여 학습 안정성을 높임.
ViT의 장점
- Global Context를 효과적으로 학습
- MSA을 통해 중요한 패치 영역에 집중 가능
- CNN 대비 Long-range Dependencies을 효과적으로 학습
인코더의 수식은 다음과 같다.
$$z_0 = \left[ x_{class}; x_p^1E; x_p^2E; ...; x_p^N E \right] + E_{pos}$$
여기서,
- $E \in \mathbb{R}^{(P^2 \cdot C) \times D}$는 패치 임베딩 행렬.
- $E_{pos} \in \mathbb{R}^{(N+1) \times D}$는 위치 임베딩 행렬.
트랜스포머 블록의 계산 과정은 다음과 같다.
$$z'_{\ell} = MSA(LN(z_{\ell-1})) + z_{\ell-1}, \quad \ell = 1 \dots L$$ $$z_{\ell} = MLP(LN(z'_{\ell})) + z'_{\ell}, \quad \ell = 1 \dots L$$ $$y = LN(z_L^0)$$
여기서,
- MSA(Multi-Head Self-Attention): 여러 어텐션 헤드를 활용하여 서로 다른 패치 간 관계 학습.
- MLP(Multi-Layer Perceptron): 패치 특징을 강화하는 역할 수행.
- Layer Normalization(LN): 내부 공변량 이동(Internal Covariate Shift) 문제 해결.
2. Decoder for text generation (GPT2 기반)
의료 영상에서 추출한 특징을 기반으로 자연스러운 의료 보고서를 생성하기 위해 GPT-2 기반 디코더를 사용한다.
- 입력 데이터 처리 과정
- 의료 보고서는 XML 형식으로 저장되어 있으며, 이를 텍스트 포맷으로 변환 후 토큰화(Tokenization) 진행.
- 각 토큰은 임베딩 벡터(X = [x1, x2, ..., xn])로 변환되며, 위치 임베딩(Positional Encoding)이 추가됨.
- Self-Attention 메커니즘을 통해 보고서 내 단어 간 관계를 학습.
- Self-Attention 기법
- 각 단어 토큰은 Query(Q), Key(K), Value(V) 벡터로 변환됨.
- Attention Score를 계산하는 공식은 다음과 같다.
$$Attention = softmax \left( \frac{Q K^T}{\sqrt{d_k}} \right) V$$
여기서,
- $Q, K, V$는 각각 Query, Key, Value 행렬.
- $d_k$는 Key 벡터의 차원.
- 높은 어텐션 점수는 해당 단어가 현재 문맥에서 중요한 역할을 함을 의미.
- Cross-Attention 기법
- 의료 영상에서 추출된 특징을 텍스트 생성에 반영하기 위해 Cross-Attention을 적용.
- 교차어텐션 점수는 다음과 같이 계산된다.
$$CrossAttention = X + softmax \left( \frac{Q_{decoder} K_{encoder}^T}{\sqrt{d_k}} \right) V_{encoder}$$
3. Retrieval Augmentation (검색 기반 정보 보강)
보고서의 신뢰성을 높이기 위해, Chroma Vector Store와 Lang Chain을 활용하여 추가적인 의료 정보를 반영한다.
- Retrieval Augmentation의 장점
- 기존 데이터베이스에서 유사한 보고서를 검색하여 활용 가능
- 완전히 잘못된 정보(Fabricated Information) 생성 위험 감소
- 여러 보고서의 인사이트를 종합하여, 더 포괄적이고 신뢰할 수 있는 보고서 생성 가능
4. Dataset & Preprocessing
Indiana University Hospital의 Open-I X-ray 데이터셋을 사용하여 실험을 진행하였다.
- 7470개의 X-ray 영상 (Dicom 포맷)
- 3851개의 환자 보고서
- 각 X-ray 이미지에는 Frontal 및 Lateral View 포함
- 한 개의 보고서에 1~5개의 X-ray 이미지가 포함됨
데이터 전처리 과정
- 결측값 처리:
- NaN 값을 "No Comparison", "No Indication", "No Findings" 등으로 대체.
- Word Cloud 분석:
- 주요 단어: "Chest", "Pain", "Dyspnea", "Pleural Effusion", "Pneumothorax" 등.
- 통계적 분석:
- 보고서 내 단어 개수 분석(PDF & CDF 적용)
- 50%의 문장이 25단어 이하, 99%의 문장이 50단어 이하.
5. Output Generation
- 디코더는 의료 보고서를 토큰 단위로 생성하며,
- 최종 디코더 블록에서 Logit 벡터(Logit Representation) 계산.
- SoftMax 함수 적용하여 확률 분포로 변환 후, 다음 단어 예측.
Chroma vector store and lang chain
보고서의 신뢰성과 정확도를 향상시키기 위해, Chroma Vector Store & Lang Chain을 활용한 검색 기반 정보 보강(RAG)을 적용.
- Chroma Vector Store:
- LLM 애플리케이션에 최적화된 오픈 소스 벡터 데이터베이스.
- 벡터 데이터베이스는 텍스트, 이미지, 오디오 등 다양한 데이터를 고차원 벡터로 변환하여 저장하고, 이러한 벡터 간의 유사성을 효율적으로 검색할 수 있도록 설계된 데이터베이스.
- 추가적인 의료 지식과 기존 보고서를 벡터로 저장.
- FAISS, Pinecone 대비 더 효율적이고 비용이 저렴한 저장 및 검색 시스템.
- 유사한 보고서를 검색하여 새로 생성된 보고서에 반영.
- Lang Chain:
- 데이터베이스, 파일 시스템, 웹 검색 등과의 통합을 통해 실시간 데이터와 상호작용하는 애플리케이션을 개발할 수 있게함.
- Chroma 데이터베이스에서 검색된 보고서를 기반으로 LLM(Language Model)에게 프롬프트 제공.
- 보고서의 주요 소견, 결론, 요약을 자동 생성.
- 검색 기반 정보 보강의 장점:
- 허위 정보(Fabricated Information) 생성 위험 감소.
- 다양한 보고서에서 인사이트를 결합하여 더 신뢰성 높은 보고서 생성.
- 모델이 단순한 보고서 생성이 아니라, 실제 임상 데이터를 활용할 수 있도록 개선.
Results
1. Evaluation Metrics
본 연구에서는 모델 성능을 평가하기 위해 자연어 생성(NLG) 평가 지표를 적용하였다.
텍스트 생성 모델의 평가를 위해 단어 중첩 기반(word overlap) 지표와 의미 유사도(semantic similarity) 지표를 함께 사용하였다.
(1) Word Overlap Metrics (단어 중첩 평가)
- BLEU (Bilingual Evaluation Understudy) Score
- 기계 번역 평가를 위해 개발된 지표로, 자동 의료 보고서 생성 평가에도 활용됨.
- BLEU 점수는 n-gram 정밀도(n-gram precision)를 로그 변환하여 평균을 취한 후, 문장 길이에 대한 보정(Brevity Penalty, BP)을 적용하여 계산된다.
$$BLEU = BP \times \exp \left( \frac{1}{N} \sum_{n=1}^{N} \log(prec_n) \right)$$
- BP (Brevity Penalty): 생성된 문장이 너무 짧을 경우, 패널티를 부여하여 평가 신뢰도를 높임.
- $N$: 최대 n-gram 개수.
- $prec_n$: n-gram 정밀도(Precision).
- ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation)
- 가장 긴 공통 부분열(Longest Common Subsequence, LCS)을 활용하여 평가.
$$Rouge-L = \frac{LCS(C, R)}{R}$$
- $C$: 모델이 생성한 문장(Candidate).
- $R$: 정답 문장(Reference).
(2) Semantic Similarity Metrics (의미 유사도 기반 평가)
단순한 단어 중첩만으로는 평가가 충분하지 않기 때문에, 의미적 유사도 평가 지표도 적용하였다.
- Skip-Thought Cosine Similarity (SkipThoughtCS)
- 사전 학습된 언어 모델을 활용하여, 두 문장의 의미적 유사도를 계산.
$$SkipthoughtCS = \frac{model(S_1) \cdot model(S_2)}{|model(S_1)| \cdot |model(S_2)|}$$
- $S_1, S_2$: 원본 문장과 생성된 문장의 벡터 표현.
- model: 사전 학습된 언어 모델.
- Vector Extrema
- 두 문장 벡터의 차원별 최댓값과 최솟값을 비교하여 유사도 계산.
- Greedy Matching
- 두 문장 간 단어 순서와 상관없이 가장 유사한 단어 쌍을 매칭하여 평가.
2. Ablation Study
ViTGPT2 모델의 성능을 최적화하기 위해 다양한 하이퍼파라미터를 실험하였다.
(1) MHA의 헤드 수 변화
- Multi-Head Self-Attention(MHSA)은 입력 문장 내 중요 부분에 집중하는 역할을 함.
- 실험에서는 헤드 수를 1, 3, 6, 12로 변경하며 모델 성능을 평가.
- 결과: 헤드 수가 증가할수록 세부 정보 학습이 향상되지만, 12개 이상에서는 Overfitting 발생.
(2) 인코더 및 디코더 블록 수 변화
- Encoder-Decoder 구조의 블록 수를 6, 9, 12, 15로 변경하여 실험.
- 블록 수가 증가할수록 더 복잡한 특징을 학습할 수 있지만, 계산량과 학습 시간이 급증.
- 12개 블록이 가장 효율적인 성능을 보임.
(3) Dropout Rate 변화
- 과적합 방지를 위해 Dropout을 적용하며, 주요 실험 항목:
- Attention Mechanism Dropout: MHSA 레이어의 가중치 정규화.
- Residual Network Dropout: 인코더 및 디코더의 잔차 연결 정규화.
- MLP Dropout: MLP 레이어에서 적용.
- Embeddings Dropout: 단어 임베딩 가중치 정규화.
- 실험 결과: Dropout 값이 0.1~0.2일 때 최적 성능을 보이며, 0.3 이상에서는 Rouge-L 및 유사도 점수가 감소.
(4) 입력 이미지 패치 크기 변화
- Vision Transformer(ViT)에서는 입력 이미지를 작은 patch 단위로 변환하여 처리.
- 패치 크기를 16×16 vs. 32×32로 비교 실험.
- 결과: 16×16 패치가 모델 성능을 약간 더 향상시키고, 학습 속도도 빠름.
3. 모델 성능 비교
- 본 연구에서 제안한 ViTGPT2, BEiTGPT2, DEiTGPT2 모델과 기존 모델을 비교.
- Table 3 & 4에서 기존 모델 대비 BLEU, ROUGE-L, SkipThoughtCS 점수가 더 높게 나타남.
(1) 생성된 보고서 평가
- 모델이 생성한 보고서의 품질을 평가하기 위해 의료 전문가(방사선과 전문의 3명, 의사 2명)에게 검토 요청.
- 10개의 X-ray 이미지에 대해 생성된 보고서를 검토하고 평가.
- 전문가 피드백 요약:
- 보고서가 정확하고 세부적인 진단 내용을 포함.
- 임상적 용어 사용이 적절하며, 핵심 정보를 빠짐없이 포함.
- 소견 및 결론 부분에서 약간의 추가 설명이 필요함.
Limitations
본 연구에서 제안한 ViTGPT2 모델에는 몇 가지 주요 한계점이 존재한다.
(1) 데이터셋의 한계
- Indiana University X-ray 데이터셋은 특정 흉부 X-ray 이미지만 포함하고 있으며, 제한된 이상 소견(Abnormalities) 및 질병 범위를 다룸.
- 이로 인해 다양한 의료 영상(CXR 외에 CT, MRI 등)이나 더 넓은 범위의 이상 소견을 포함하는 데이터셋에 대한 일반화 성능이 제한적.
(2) 높은 계산 자원 요구
- Vision Transformer(ViT), BEiT, DEiT, GPT-2와 같은 대형 트랜스포머 모델은 훈련에 상당한 계산 리소스를 필요로 함.
- 본 연구는 Google Colab의 GPU와 같은 제한된 연산 환경에서 진행되었으며, 최적의 성능을 내는 데 어려움이 있음.
- 충분한 연산 자원이 부족하면 학습 최적화가 어렵고, 모델의 성능이 저하될 가능성이 있음.
(3) 의료 보고서의 주관성
- 의료 보고서는 방사선과 전문의의 지식, 해석 방식, 표현 스타일에 따라 내용이 다를 수 있음.
- 이러한 주관성을 모델이 학습할 경우, 일관성이 떨어지거나 잘못된 정보를 포함한 보고서가 생성될 수 있음.
(4) 의료 용어의 정확한 사용 어려움
- 의료 보고서는 전문적인 의학 용어를 기반으로 작성되며, 특정 용어 사용에 대한 문맥적 이해가 필수적.
- 모델이 트랜스포머 아키텍처를 사용하지만, 의료 용어의 뉘앙스를 정확하게 반영하는 것은 여전히 어려운 과제.
(5) 평가 지표의 한계
- 본 연구에서는 BLEU, ROUGE-L, Skip-Thought Cosine Similarity 등의 평가 지표를 활용.
- 하지만 이러한 지표는 단순한 텍스트 유사도를 평가하는 데 초점이 맞춰져 있어, 실제 임상적 유효성(Clinical Relevance)을 평가하는 데 한계가 있음.
- 의료 전문가가 직접 평가하는 방식이 가장 신뢰성이 높지만, 본 연구에서는 이를 충분히 수행할 수 없었음.
(6) 실제 임상 환경 적용 어려움
- 의료 영상 분석 및 보고서 생성을 실질적으로 임상 환경에 적용하기 위해서는 엄격한 검증이 필요함.
- 전자 건강 기록(EHR, Electronic Health Records) 시스템과의 통합 및 의료진의 신뢰 확보가 필수적.
- 실제 병원에서 사용할 경우, 법적·윤리적 문제도 고려해야 하며, 본 연구에서는 이러한 요소를 다루지 못함.
Future Scope
본 연구의 결과를 바탕으로, 향후 연구에서 개선할 수 있는 방향을 다음과 같이 제안한다.
(1) 데이터셋 확장
- CT, MRI, 초음파(Ultrasound) 등의 다양한 의료 영상 모달리티를 포함하는 데이터셋을 활용하여 모델의 일반화 성능을 향상.
- 더 다양한 이상 소견(Abnormalities)과 질병을 포함하는 데이터셋을 추가하여 모델의 실용성을 높임.
- 데이터 불균형 문제를 해결하기 위해 데이터 증강(Data Augmentation) 기법을 적용.
(2) 더 효율적인 모델 구조 개발
- 트랜스포머 기반 하이브리드 모델을 연구하여 계산 효율성을 높이고, 연산 자원이 부족한 환경에서도 사용할 수 있도록 최적화.
- Lightweight 모델 변형을 연구하여, 실시간 적용이 가능하도록 개선.
(3) NLP 기술 향상
- 의료 용어(Medical Terminology)를 보다 정밀하게 이해할 수 있도록, 의료 특화 사전(Medical Ontology)과 연계한 NLP 기법 도입.
- 의료 전문가와의 협력을 통해, "Human-in-the-loop" 방식으로 모델을 지속적으로 개선할 수 있는 시스템 구축.
(4) 평가 지표 개선
- 임상적 유효성(Clinical Relevance) 평가를 위한 새로운 평가 방법 도입.
- 의료 전문가의 피드백을 정량적으로 반영할 수 있는 평가 프레임워크 개발.
(5) 실시간 피드백 및 검증 시스템 구축
- 실제 방사선과 전문의가 모델이 생성한 보고서를 실시간으로 검토하고 수정할 수 있도록 인터페이스 개발.
- 전자의무기록(EHR) 시스템과 통합하여, 병원 환경에서 실질적으로 적용할 수 있는 연구 진행.
Conclusion
본 연구는 Vision Transformer(ViT) 기반 의료 영상 특징 추출과 GPT-2 기반 자연어 생성 모델을 결합한 자동 의료 보고서 생성 모델(ViTGPT2)을 제안하였다.
(1) Contributions
- 다중 모달 트랜스포머 기반 자동 의료 보고서 생성 모델(ViTGPT2) 개발
- Vision Transformer(ViT), BEiT, DEiT을 인코더로 활용하여 의료 영상의 전역적 특징을 효과적으로 학습
- GPT-2를 디코더로 활용하여 더 정밀하고 문맥적으로 자연스러운 의료 보고서 생성 가능
- Cross-Attention 기법을 적용하여 의료 영상과 보고서의 텍스트 정보를 효과적으로 통합
- BLEU, ROUGE-L, Skip-Thought CS 등의 평가 지표에서 기존 모델 대비 성능 향상 확인
- Indiana X-ray 데이터셋을 활용하여 모델의 성능을 실험 및 검증
(2) Novelty
- 기존 CNN-RNN 기반 모델이 아닌, Vision Transformer + GPT-2 기반의 다중 모달 트랜스포머 아키텍처를 제안
- 기존 연구들이 다루지 않은 Retrieval-Augmented Generation(RAG) 기법을 적용하여 보고서 생성의 신뢰성 향상
- Chroma Vector Store 및 Lang Chain을 활용하여, 기존 의료 보고서를 검색 및 보강
- 기존 연구에서는 잘 활용되지 않은 의미적 유사도 평가(SAS, Semantic Answer Similarity) 도입
- SAS 평가 지표를 활용하여 보고서의 정보량과 일관성을 정량적으로 평가
- 실제 임상 환경에서 활용할 수 있도록 병원 시스템(EHR)과의 통합 가능성을 고려한 연구 방향 제시
(3) Future Works
- 더 다양한 의료 영상 데이터셋 활용하여 모델의 일반화 성능 강화.
- 의료 전문가 피드백을 적극 반영한 개선 모델 개발.
- 실제 병원 시스템과의 통합을 고려한 연구 진행.
'Computer Vision' 카테고리의 다른 글
[2025-1] 임수연 - PIFuHD (0) | 2025.03.19 |
---|---|
[2025-1] 정성윤 - Inception-Net 논문 리뷰 (0) | 2025.03.15 |
[2025-1] 임수연 - MobileUNETR (0) | 2025.03.14 |
[2025-1] 유경석 - XprospeCT: CT Volume Generation from Paired X-Rays (0) | 2025.03.14 |
[2025-1] 황징아이 - Dynamic Routing Between Capsules (0) | 2025.03.08 |