https://arxiv.org/pdf/2203.01305
DN-DETR은 DETR(DEtection TRansformer) 모델의 불안정한 이분 매칭(bipartite matching) 문제를 개선하기 위해 제안된 모델이다. denoising training을 통해 훈련에서의 빠른 수렴과 높은 정확도를 달성했다.
DN-DETR (Deformable DETR with Noising Queries)
- DAB-DETR의 구조 활용
- 4D 앵커 박스 $(x,y,w,h)$ 사용 (learnable parameter)
- DAB-DETR에 Class Label Embedding과 Indicator 활용
- Class Label Embedding : 객체의 클래스 정보를 포함하는 임베딩
- Indicator : 노이즈 객체와 실제 객체를 구분하는 임베딩
1. Noising Queries
- DN-DETR은 노이즈를 추가하여 모델이 다양한 위치와 조건에서의 물체를 더 잘 예측하도록 유도한다.
- 이 노이즈는 박스 노이즈(Box Noising)와 라벨 노이즈(Label Noising)로 구성된다.
- 박스 노이즈(center shifting, box scaling)
- 중심 좌표에 랜덤 노이즈를 추가하거나 상자의 너비와 높이에 대한 랜덤 노이즈를 추가
- 라벨 노이즈
- 실제 라벨 대신 다른 라벨 정보를 제공
- 박스 노이즈(center shifting, box scaling)
- 노이즈 제거(De-Noise)는 학습 과정에만 이루어지며 모델이 더 정확한 예측을 할 수 있게 된다.
- Reconstruction Loss는 박스에 대한 $l_1$ 손실과 GIOU 손실 이용
- 클래스 레이블은 Focal Loss 이용
2. Attention Mask
- Denoising에서 attention mask는 정보 누출을 방지하는 역할
- attention mask는 다음과 같은 두 가지 유형의 정보 누출을 방지함
- denoising part와 matching part 간의 정보 누출 방지: matching part가 denoising part를 볼 수 없도록 하여 정보 누출을 방지 → denoising part가 GT와 가깝기 때문
- 다른 노이즈 그룹 간의 정보 누출: 각 노이즈 그룹이 서로를 볼 수 없도록 하여 정보 누출을 방지
- attention mask가 없을 시 denoising training 시 성능이 저하된다.
3. 성능 향상
- DN-DETR는 초기 학습 단계에서 더 정확한 GT를 제공받아 일반적인 DETR보다 훨씬 빠르게 수렴한다.
- 결과적으로 더 적은 epoch에서도 높은 성능을 달성할 수 있다. (COCO 데이터셋 500 vs 12)
향후 개선 방향
Zero-shot or Open Set Detection
- 사전 학습된 언어 모델을 사용하여 클래스 레이블(ex. cat, dog)의 임베딩을 생성
- 학습되지 않은 새로운 클래스(ex. elephant, giraffe)의 레이블을 임베딩으로 변환하여 Query에 삽입해 모델이 새로운 클래스의 물체를 탐지할 수 있게함
Progressive inference
- 모델이 예측한 물체들 중 가장 높은 점수를 가진 물체를 먼저 선택하고 이를 기반으로 추가 탐지를 수행하며 결과를 점진적으로 정제
Classification before detection
- 물체 감지 이전에 다중 레이블 분류(Multi-Label Classification) 네트워크를 추가
- 예측한 클래스 레이블을 DN-DETR의 Query에 입력으로 제공하여 감지 성능을 향상
요약
DN-DETR는 DETR의 학습 속도와 성능을 개선하기 위해 제안됨