본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2024-2] 주서영 - DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

by 영써 2024. 12. 28.

https://arxiv.org/pdf/2203.01305

 

DN-DETR은 DETR(DEtection TRansformer) 모델의 불안정한 이분 매칭(bipartite matching) 문제를 개선하기 위해 제안된 모델이다. denoising training을 통해 훈련에서의 빠른 수렴과 높은 정확도를 달성했다.

다른 DETR 모델에 비해 빠른 수렴속도를 보여줌

DN-DETR (Deformable DETR with Noising Queries)

  • DAB-DETR의 구조 활용
    • 4D 앵커 박스 $(x,y,w,h)$ 사용 (learnable parameter)

DN-DETR은 DAB-DETR의 learable Anchors 채택하였음

  • DAB-DETR에 Class Label Embedding과 Indicator 활용
    • Class Label Embedding : 객체의 클래스 정보를 포함하는 임베딩
    • Indicator : 노이즈 객체와 실제 객체를 구분하는 임베딩

1. Noising Queries

  • DN-DETR은 노이즈를 추가하여 모델이 다양한 위치와 조건에서의 물체를 더 잘 예측하도록 유도한다.
  • 이 노이즈는 박스 노이즈(Box Noising)라벨 노이즈(Label Noising)로 구성된다.
    • 박스 노이즈(center shifting, box scaling)
      • 중심 좌표에 랜덤 노이즈를 추가하거나 상자의 너비와 높이에 대한 랜덤 노이즈를 추가
    • 라벨 노이즈
      • 실제 라벨 대신 다른 라벨 정보를 제공
  • 노이즈 제거(De-Noise)는 학습 과정에만 이루어지며 모델이 더 정확한 예측을 할 수 있게 된다.
  • Reconstruction Loss는 박스에 대한 $l_1$ 손실과 GIOU 손실 이용
  • 클래스 레이블은 Focal Loss 이용

2. Attention Mask

  • Denoising에서 attention mask는 정보 누출을 방지하는 역할
  • attention mask는 다음과 같은 두 가지 유형의 정보 누출을 방지함
    1. denoising part와 matching part 간의 정보 누출 방지: matching part가 denoising part를 볼 수 없도록 하여 정보 누출을 방지 → denoising part가 GT와 가깝기 때문
    2. 다른 노이즈 그룹 간의 정보 누출: 각 노이즈 그룹이 서로를 볼 수 없도록 하여 정보 누출을 방지
  • attention mask가 없을 시 denoising training 시 성능이 저하된다.

3. 성능 향상

  • DN-DETR는 초기 학습 단계에서 더 정확한 GT를 제공받아 일반적인 DETR보다 훨씬 빠르게 수렴한다.
  • 결과적으로 더 적은 epoch에서도 높은 성능을 달성할 수 있다. (COCO 데이터셋 500 vs 12)

향후 개선 방향

Zero-shot or Open Set Detection

  • 사전 학습된 언어 모델을 사용하여 클래스 레이블(ex. cat, dog)의 임베딩을 생성
  • 학습되지 않은 새로운 클래스(ex. elephant, giraffe)의 레이블을 임베딩으로 변환하여 Query에 삽입해 모델이 새로운 클래스의 물체를 탐지할 수 있게함

Progressive inference

  • 모델이 예측한 물체들 중 가장 높은 점수를 가진 물체를 먼저 선택하고 이를 기반으로 추가 탐지를 수행하며 결과를 점진적으로 정제

Classification before detection

  • 물체 감지 이전에 다중 레이블 분류(Multi-Label Classification) 네트워크를 추가
  • 예측한 클래스 레이블을 DN-DETR의 Query에 입력으로 제공하여 감지 성능을 향상

요약

DN-DETR는 DETR의 학습 속도와 성능을 개선하기 위해 제안됨