본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 임재열- DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection

by limlimlim1109 2025. 5. 17.

DRAEM은 2021 ICCV에서 발표된

    복원-원본 이미지 쌍을 활용해 anomaly detection을 학습하는 새로운 unsupervised 모델

을 제안하는 논문입니다.

 

[DRAEM]

https://arxiv.org/abs/2108.07610

 

DRAEM -- A discriminatively trained reconstruction embedding for surface anomaly detection

Visual surface anomaly detection aims to detect local image regions that significantly deviate from normal appearance. Recent surface anomaly detection methods rely on generative models to accurately reconstruct the normal areas and to fail on anomalies. T

arxiv.org

* Abstract

- 표면 이상 탐지는 이미지에서 정상적인 외형에서 벗어난 국소 영역을 탐지하는 과제
- 대부분의 기존 방법은 생성 모델을 활용하여 정상 이미지를 복원하고, 복원 실패를 이상으로 간주 → But 후처리 과정 복잡, 이상 탐지 성능 최적화 어려움

- 표면 이상 탐지를 discriminative task로 접근 DRÆM (Discriminatively trained Reconstruction Anomaly Embedding Model) 제안
- 이상 이미지와 그 복원 이미지 간의 joint representation + 정상/이상 샘플을 구분하는 decision boundary 학습

- 복잡한 후처리 없이도 직접 이상 국소화 가능 + 단순한 이상 시뮬레이션만으로도 학습 가능
- MVTec 데이터셋에서 기존 비지도 학습 방법보다 큰 차이로 우수한 성능

* DRAEM

- Reconstructive sub-network + Discriminative sub-network

* Reconstructive sub-network

- 인코더-디코더 구조
- 입력 이미지의 local pattern 을 정상 샘플 분포에 더 가까운 패턴으로 변환
- 훈련 시 합성 이상이 포함된 이미지 (I_a)로부터 정상 이미지 I를 복원하도록 학습

- Loss function (I_r: 복원 이미지, lambda: 두 손실 간의 가중치)

    - L_2 loss

    - SSIM(Structural Similarity Index) 기반 패치 손실

        - 이웃 픽셀 간 상호작용을 고려하여 더 정밀한 복원 유도

* Discriminative sub-network

- U-Net 스타일 네트워크

- 입력: 복원 이미지 입력: 복원 이미지 I_r와 원본 이미지 I를 채널 방향으로 연결한 I_c → 출력: 픽셀 단위의 이상 점수 맵 M_o
​- I와 I_r의 차이를 바탕으로 이상 여부를 픽셀 단위로 예측

- 기존에는 SSIM 같은 유사도 지표로 직접 비교했으나, DRAEM은 이런 유사도 함수를 직접 학습

- Loss function (M_a: 합성 이상 마스크, M: 모델이 예측한 마스크, L_seg: Focal Loss 기반 segmentation loss)


* Simulated anomaly generation

- DRAEM은 실제 이상이 아닌, 단순한 out-of-distribution 이미지 패턴만 있어도 학습 가능

- 시뮬레이션 절차

    1. Perlin 노이즈를 이용해 다양한 형태의 이상 마스크 M_a 생성
    2. 이상 텍스처 이미지 A는 ImageNet, DTD 등 무관한 외부 데이터셋에서 샘플링

    3. RandAugment 방식에서 차용한 augmentation 적용

    4. 생성된 이상 텍스처 A와 마스크 손실 M_a를 혼합하여 이상 이미지 I_a 생성 (beta: 혼합 정도, [0.1, 1.0]에서 무작위 샘플링


 - 이를 통해 원본 이미지(I), 합성 이상 이미지(I_a), 픽셀 단위 이상 마스크(M_a)를 학습에 사용 가능

* Surface anomaly localization and detection

- 최종 출력 M_o: 픽셀 단위의 이상 점수 맵 → 이를 기반으로 이미지 전체의 이상 여부 판단 가능
    1. M_o를 mean filter로 smoothing

    2. 최종 이미지 레벨 이상 점수 η: 필터링된 점수 맵의 최댓값 (f_sxs: s x s mean filter, *: convolution)

- 실험적으로 별도 분류기 학습 없이 이 방식이 더 효과적

* Experiments

* Comparison with Unsupervised Methods

- 15개 중 9개 클래스에서 최고 성능

- AUROC 평균 98.0 → 이전 SOTA 대비 2.5%p 향상

* Abalation Study

- Architecture ablation
    - Recon. X → overfitting 발생, 성능 하락

    - Recon. 만 사용 (AE + SSIM/MS-GMS) → 성능 향상 있지만 DRAEM보다 낮음
    - 결론: Recon. + Disc. 조합이 필수

- Anomaly appearance source
    - DTD, ImageNet, 단일 색상(색상 블렌딩), 사각형 등 다양한 방식 실험
    - 색상만 써도 높은 성능 → 실제와 유사할 필요 없음

    - 결론: 이상 시뮬레이션은 단순해도 충분
    - augmentation과 β 블렌딩이 성능 크게 향상시킴

 

- Low perturbation control
    - augmentation과 opacity 조절 유무에 따른 실험
    - 둘 다 빠지면 성능 급감

    - opacity 조절만 해도 localization 크게 향상

* Comparison with supervised Methods

- 데이터셋: DAGM

- 실제 이상 없이도 fully-supervised 수준의 분류 정확도 (98.5%) 달성

- 오히려 Localization 정확도는 supervised 방법보다 더 우수 (DAGM의 GT 마스크는 부정확한 타원이라 오히려 지도 모델에 악영향)

* Conclusion

- DRAEM은 비지도 학습 방식임에도 불구하고 MVTec 데이터셋에서 기존 방법 대비 탐지 성능(AUROC) 2.5%p, 국소화 성능(AP) 13.5%p 향상 달성

- DAGM 데이터셋에서는 완전 지도 학습 기법에 근접한 분류 정확도를 보이며, 국소화 성능에서는 오히려 이를 능가
- DRAEM의 핵심은 Reconstructive sub-network를 통한 재구성 기반 임베딩 학습으로, 실제 이상 없이도 단순한 시뮬레이션만으로 효과적인 결정 경계 학습이 가능하다는 점