[2025-1] 임수연 - EfficientDet: Scalable and Efficient Object Detection

https://arxiv.org/pdf/1911.09070

1. Introduction

연구 배경
- 최신 객체 탐지 모델들은 정확도가 향상되었지만 모델 크기와 연산량도 크게 증가함
- AmoebaNet 기반 NAS-FPN과 같은 최신 탐지기는 167M 파라미터와 3045B FLOPs(RetinaNet의 30배)가 필요
- 이러한 큰 모델은 리소스 제약이 있는 실제 환경에 적용하기 어려움
주요 도전과제
- 도전 1: 효율적인 다중 스케일 특징 융합 방법 개발
- 도전 2: 여러 리소스 제약 조건에서도 효율적으로 동작하는 확장 가능한 아키텍처 설계
주요 contribution
- 가중치 양방향 특징 피라미드 네트워크(Weighted BiFPN) 제안
- 객체 탐지를 위한 컴파운드 스케일링 방법 개발
- EfficientNet 백본과 BiFPN을 결합한 EfficientDet 모델 제안

2. Related Work

One-Stage vs Two-Stage Detector
- two-stage detector(Faster R-CNN, Mask R-CNN 등)는 유연하고 정확하지만 복잡함
- one-stage detector(YOLO, SSD, RetinaNet 등)는 단순하고 효율적이지만 정확도 다소 낮음
- EfficientDet은 원스테이지 탐지기 패러다임을 따르되 정확도와 효율성 모두 개선
다중 스케일 특징 표현
- FPN(Feature Pyramid Network): top-down상향식 경로를 통해 다중 스케일 특징 결합
- PANet: FPN에 추가적인 bottom-up하향식 경로 추가
- NAS-FPN: 신경망 구조 검색으로 특징 네트워크 토폴로지 자동 설계(계산 비용 높음)
- EfficientDet은 직관적이고 원칙적인 방식으로 다중 스케일 특징 융합 최적화
모델 스케일링
- 기존 방식: 더 큰 백본 네트워크 사용 또는 입력 이미지 크기 증가
- EfficientNet: 네트워크 너비, 깊이, 해상도를 함께 스케일링하는 방식 제안
- EfficientDet은 EfficientNet에서 영감을 받아 객체 탐지에 특화된 컴파운드 스케일링 개발

3. BiFPN (양방향 특징 피라미드 네트워크)

문제 정의
- 다중 스케일 특징 융합의 목표: 서로 다른 해상도의 특징을 효과적으로 집계하여 출력 생성
- 입력: 다중 스케일 특징 벡터 Pin = (Pin l1 , Pin l2 , ...)
- 출력: 변환된 특징 벡터 P̄out = f(P̄in)

기존 FPN은 단방향 정보 흐름으로 성능에 한계 존재

Cross-Scale Connections 최적화
- PANet: bottom-up 경로 추가로 정확도 향상, 하지만 연산량 증가.
- NAS-FPN: NAS로 구조 자동 설계, 성능은 좋지만 매우 느리고 구조 해석이 어려움.
- 최적화 1: 하나의 입력 엣지만 가진 불필요 노드 제거
  - 특징 융합에 기여도가 낮은 노드 제거로 단순화된 양방향 네트워크 구성
- 최적화 2: 동일 레벨에서 원본 입력에서 출력 노드로 추가 엣지 생성
  - 입력과 출력이 같은 레벨일 경우 직접 연결을 추가해 feature 결합을 강화
  - 비용 증가 없이 더 많은 특징 융합 가능
- 최적화 3: 양방향(하향식 & 상향식) 경로를 하나의 특징 네트워크 레이어로 취급하고 반복
  - PANet은 top-down, bottom-up 각 1회만 적용했지만, BiFPN은 이를 하나의 레이어로 보고 반복 적용
  - 더 많은 고수준 특징 융합 가능
- 효율성 향상을 위해 깊이별 분리 가능한 컨볼루션 사용

가중치 특징 융합
- 기존 방식: 서로 다른 해상도의 특징을 동일하게 처리
- 문제점: 서로 다른 해상도의 특징은 출력 특징에 불균등하게 기여함
- 세 가지 가중치 융합 접근법:
  1. 무제한 융합: O = Σᵢ wᵢ · Iᵢ (가중치가 무제한이라 학습 불안정성 유발 가능)
  2. 소프트맥스 기반 융합: O = Σᵢ (e^wᵢ/Σⱼe^wⱼ) · Iᵢ (계산 비용 높음)
  3. 빠른 정규화 융합: O = Σᵢ (wᵢ/(ε+Σⱼwⱼ)) · Iᵢ (최종 선택)
  - wᵢ ≥ 0은 ReLU로 보장, ε = 0.0001로 수치적 안정성 확보
  - 소프트맥스와 유사한 정확도 유지하며 GPU에서 최대 30% 더 빠름
BiFPN은 양방향 cross-scale connection과 빠른 정규화 융합을 택함
-> 여러 스케일의 feature들을 가중 평균 한뒤 컨볼루션 처리 및 정규화를 거쳐 최종 특징을 생성하는 구조

4. EfficientDet 아키텍처

전체 구조
- 백본 네트워크: ImageNet에서 사전학습된 EfficientNet 사용
- 특징 네트워크: BiFPN (레벨 3-7 특징을 입력으로 받아 양방향 특징 융합 반복 적용)
- 클래스/박스 네트워크: 모든 레벨의 특징에 대해 가중치 공유
컴파운드 스케일링 방법
accuracy와 efficiency 향상을 위해
- 단일 복합 계수 φ를 사용하여 백본, BiFPN, 클래스/박스 네트워크, 해상도를 공동으로 스케일링
- 백본 네트워크: EfficientNet-B0부터 B6까지의 너비/깊이 스케일링 계수 재사용
- BiFPN 네트워크:
  - 너비(채널 수): W_bifpn = 64·(1.35^φ) (지수적 증가)
  - 깊이(레이어 수): D_bifpn = 3+φ (선형적 증가)
- 박스/클래스 예측 네트워크:
  - 너비: BiFPN과 동일 (W_pred = W_bifpn)
  - 깊이: D_box = D_class = 3+⌊φ/3⌋ (선형적 증가)
- 입력 이미지 해상도: R_input = 512+φ·128 (선형적 증가)
모델
- φ 값에 따라 EfficientDet-D0(φ=0)부터 D7(φ=7)까지 개발
- D7x: D7과 동일한 BiFPN과 헤드 사용하지만, 더 높은 해상도와 더 큰 백본 네트워크 사용

5. 실험 결과

객체 탐지 성능
- COCO 2017 데이터셋(118K 훈련 이미지)에서 평가
- SGD 옵티마이저(모멘텀 0.9, 가중치 감소 4e-5) 사용
- 300 에폭 학습, 배치 크기 128, 32 TPUv3 코어 사용
- D7/D7x는 600 에폭, 128 TPUv3 코어로 학습
성능 비교

- EfficientDet-D0: YOLOv3와 유사한 정확도(AP 34.6)이지만 28배 적은 FLOPs
- EfficientDet-D1~D3: RetinaNet과 Mask-RCNN보다 최대 8배 적은 파라미터, 21배 적은 FLOPs로 유사하거나 더 높은 정확도
- EfficientDet-D4~D6: 기존 NAS-FPN 기반 모델보다 적은 파라미터와 FLOPs로 더 높은 정확도
- EfficientDet-D7: 55.1 AP로 SOTA 달성(이전 최고 대비 +4 AP, 2.7배 작은 모델, 7.4배 적은 FLOPs)
지연 시간 평가

- GPU(Titan-V FP32, V100 FP16)와 단일 스레드 CPU에서 측정
- 기존 탐지기보다 GPU에서 최대 4.1배, CPU에서 최대 10.8배 빠름
Semantic Segmentation 성능
- Pascal VOC 2012 데이터셋에서 81.74% mIoU 달성
- DeepLabV3+ 대비 1.7% 더 높은 정확도, 9.8배 적은 FLOPs

6. Ablation Study

백본과 BiFPN의 영향 분리
- ResNet-50+FPN → EfficientNet-B3+FPN: +3 AP 향상, 파라미터와 FLOPs 감소
- EfficientNet-B3+FPN → EfficientNet-B3+BiFPN: 추가 +4 AP 향상, 더 적은 파라미터와 FLOPs
BiFPN 크로스 스케일 연결 비교
- 반복 top-down FPN, 반복 FPN+PANet, NAS-FPN, Fully-Connected FPN 비교
- 가중치 BiFPN이 가장 정확도 높고(44.39 AP) 적은 파라미터(0.88x)와 FLOPs(0.68x) 사용
Softmax vs Fast Normalized Fusion
- Fast normalized fusion이 정확도 손실 거의 없이(-0.01~-0.11 AP) 26%-31% 더 빠름
- 학습 중 가중치 변화 패턴 분석: 두 방식 모두 유사한 학습 행동 보임
컴파운드 스케일링 효과
- 해상도/깊이/너비 중 단일 차원만 스케일링하는 방법과 비교
- 컴파운드 스케일링이 더 효율적인 정확도-효율성 트레이드오프 달성

7. Conclusion

효율적인 객체 탐지를 위한 네트워크 설계 선택지를 체계적으로 연구
가중치 BiFPN과 커스텀 컴파운드 스케일링 방법을 통해 정확도와 효율성 모두 개선
다양한 리소스 제약 범위에서 일관되게 기존 방법보다 우수한 성능 달성
EfficientDet-D7은 단일 모델, 단일 스케일로 COCO test-dev에서 55.1 AP 달성

'Computer Vision' 카테고리의 다른 글

[2025-1] 전연주 - VAE: Auto-Encoding Variational Bayes (0)	2025.05.17
[2025-1] 김유현 - Progressive Growing of GAN (0)	2025.05.17
[2025-1] 전연주 - Patches Are All You Need? (0)	2025.05.15
[2025-1] 주서영 - Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning (0)	2025.05.15
[2025-1] 전윤경-A FOUNDATION MODEL FOR GENERALIZABLE DISEASEDIAGNOSIS IN CHEST X-RAY IMAGES (0)	2025.05.09

[2025-1] 임수연 - EfficientDet: Scalable and Efficient Object Detection

'Computer Vision' 카테고리의 다른 글

관련글

티스토리툴바