https://arxiv.org/pdf/1911.09070
1. Introduction
- 연구 배경
- 최신 객체 탐지 모델들은 정확도가 향상되었지만 모델 크기와 연산량도 크게 증가함
- AmoebaNet 기반 NAS-FPN과 같은 최신 탐지기는 167M 파라미터와 3045B FLOPs(RetinaNet의 30배)가 필요
- 이러한 큰 모델은 리소스 제약이 있는 실제 환경에 적용하기 어려움
- 주요 도전과제
- 도전 1: 효율적인 다중 스케일 특징 융합 방법 개발
- 도전 2: 여러 리소스 제약 조건에서도 효율적으로 동작하는 확장 가능한 아키텍처 설계
- 주요 contribution
- 가중치 양방향 특징 피라미드 네트워크(Weighted BiFPN) 제안
- 객체 탐지를 위한 컴파운드 스케일링 방법 개발
- EfficientNet 백본과 BiFPN을 결합한 EfficientDet 모델 제안
2. Related Work
- One-Stage vs Two-Stage Detector
- two-stage detector(Faster R-CNN, Mask R-CNN 등)는 유연하고 정확하지만 복잡함
- one-stage detector(YOLO, SSD, RetinaNet 등)는 단순하고 효율적이지만 정확도 다소 낮음
- EfficientDet은 원스테이지 탐지기 패러다임을 따르되 정확도와 효율성 모두 개선
- 다중 스케일 특징 표현
- FPN(Feature Pyramid Network): top-down상향식 경로를 통해 다중 스케일 특징 결합
- PANet: FPN에 추가적인 bottom-up하향식 경로 추가
- NAS-FPN: 신경망 구조 검색으로 특징 네트워크 토폴로지 자동 설계(계산 비용 높음)
- EfficientDet은 직관적이고 원칙적인 방식으로 다중 스케일 특징 융합 최적화
- 모델 스케일링
- 기존 방식: 더 큰 백본 네트워크 사용 또는 입력 이미지 크기 증가
- EfficientNet: 네트워크 너비, 깊이, 해상도를 함께 스케일링하는 방식 제안
- EfficientDet은 EfficientNet에서 영감을 받아 객체 탐지에 특화된 컴파운드 스케일링 개발
3. BiFPN (양방향 특징 피라미드 네트워크)
- 문제 정의
- 다중 스케일 특징 융합의 목표: 서로 다른 해상도의 특징을 효과적으로 집계하여 출력 생성
- 입력: 다중 스케일 특징 벡터 Pin = (Pin l1 , Pin l2 , ...)
- 출력: 변환된 특징 벡터 P̄out = f(P̄in)
기존 FPN은 단방향 정보 흐름으로 성능에 한계 존재
- Cross-Scale Connections 최적화
- PANet: bottom-up 경로 추가로 정확도 향상, 하지만 연산량 증가.
- NAS-FPN: NAS로 구조 자동 설계, 성능은 좋지만 매우 느리고 구조 해석이 어려움.
- 최적화 1: 하나의 입력 엣지만 가진 불필요 노드 제거
- 특징 융합에 기여도가 낮은 노드 제거로 단순화된 양방향 네트워크 구성
- 최적화 2: 동일 레벨에서 원본 입력에서 출력 노드로 추가 엣지 생성
- 입력과 출력이 같은 레벨일 경우 직접 연결을 추가해 feature 결합을 강화
- 비용 증가 없이 더 많은 특징 융합 가능
- 최적화 3: 양방향(하향식 & 상향식) 경로를 하나의 특징 네트워크 레이어로 취급하고 반복
- PANet은 top-down, bottom-up 각 1회만 적용했지만, BiFPN은 이를 하나의 레이어로 보고 반복 적용
- 더 많은 고수준 특징 융합 가능
- 효율성 향상을 위해 깊이별 분리 가능한 컨볼루션 사용
- 가중치 특징 융합
- 기존 방식: 서로 다른 해상도의 특징을 동일하게 처리
- 문제점: 서로 다른 해상도의 특징은 출력 특징에 불균등하게 기여함
- 세 가지 가중치 융합 접근법:
- 무제한 융합: O = Σᵢ wᵢ · Iᵢ (가중치가 무제한이라 학습 불안정성 유발 가능)
- 소프트맥스 기반 융합: O = Σᵢ (e^wᵢ/Σⱼe^wⱼ) · Iᵢ (계산 비용 높음)
- 빠른 정규화 융합: O = Σᵢ (wᵢ/(ε+Σⱼwⱼ)) · Iᵢ (최종 선택)
- wᵢ ≥ 0은 ReLU로 보장, ε = 0.0001로 수치적 안정성 확보
- 소프트맥스와 유사한 정확도 유지하며 GPU에서 최대 30% 더 빠름
- BiFPN은 양방향 cross-scale connection과 빠른 정규화 융합을 택함
-> 여러 스케일의 feature들을 가중 평균 한뒤 컨볼루션 처리 및 정규화를 거쳐 최종 특징을 생성하는 구조
4. EfficientDet 아키텍처
- 전체 구조
- 백본 네트워크: ImageNet에서 사전학습된 EfficientNet 사용
- 특징 네트워크: BiFPN (레벨 3-7 특징을 입력으로 받아 양방향 특징 융합 반복 적용)
- 클래스/박스 네트워크: 모든 레벨의 특징에 대해 가중치 공유
- 컴파운드 스케일링 방법
accuracy와 efficiency 향상을 위해
- 단일 복합 계수 φ를 사용하여 백본, BiFPN, 클래스/박스 네트워크, 해상도를 공동으로 스케일링
- 백본 네트워크: EfficientNet-B0부터 B6까지의 너비/깊이 스케일링 계수 재사용
- BiFPN 네트워크:
- 너비(채널 수): W_bifpn = 64·(1.35^φ) (지수적 증가)
- 깊이(레이어 수): D_bifpn = 3+φ (선형적 증가)
- 박스/클래스 예측 네트워크:
- 너비: BiFPN과 동일 (W_pred = W_bifpn)
- 깊이: D_box = D_class = 3+⌊φ/3⌋ (선형적 증가)
- 입력 이미지 해상도: R_input = 512+φ·128 (선형적 증가)
- 모델
- φ 값에 따라 EfficientDet-D0(φ=0)부터 D7(φ=7)까지 개발
- D7x: D7과 동일한 BiFPN과 헤드 사용하지만, 더 높은 해상도와 더 큰 백본 네트워크 사용
5. 실험 결과
- 객체 탐지 성능
- COCO 2017 데이터셋(118K 훈련 이미지)에서 평가
- SGD 옵티마이저(모멘텀 0.9, 가중치 감소 4e-5) 사용
- 300 에폭 학습, 배치 크기 128, 32 TPUv3 코어 사용
- D7/D7x는 600 에폭, 128 TPUv3 코어로 학습
- 성능 비교
-
- EfficientDet-D0: YOLOv3와 유사한 정확도(AP 34.6)이지만 28배 적은 FLOPs
- EfficientDet-D1~D3: RetinaNet과 Mask-RCNN보다 최대 8배 적은 파라미터, 21배 적은 FLOPs로 유사하거나 더 높은 정확도
- EfficientDet-D4~D6: 기존 NAS-FPN 기반 모델보다 적은 파라미터와 FLOPs로 더 높은 정확도
- EfficientDet-D7: 55.1 AP로 SOTA 달성(이전 최고 대비 +4 AP, 2.7배 작은 모델, 7.4배 적은 FLOPs)
- 지연 시간 평가
-
- GPU(Titan-V FP32, V100 FP16)와 단일 스레드 CPU에서 측정
- 기존 탐지기보다 GPU에서 최대 4.1배, CPU에서 최대 10.8배 빠름
- Semantic Segmentation 성능
- Pascal VOC 2012 데이터셋에서 81.74% mIoU 달성
- DeepLabV3+ 대비 1.7% 더 높은 정확도, 9.8배 적은 FLOPs
6. Ablation Study
- 백본과 BiFPN의 영향 분리
- ResNet-50+FPN → EfficientNet-B3+FPN: +3 AP 향상, 파라미터와 FLOPs 감소
- EfficientNet-B3+FPN → EfficientNet-B3+BiFPN: 추가 +4 AP 향상, 더 적은 파라미터와 FLOPs
- BiFPN 크로스 스케일 연결 비교
- 반복 top-down FPN, 반복 FPN+PANet, NAS-FPN, Fully-Connected FPN 비교
- 가중치 BiFPN이 가장 정확도 높고(44.39 AP) 적은 파라미터(0.88x)와 FLOPs(0.68x) 사용
- Softmax vs Fast Normalized Fusion
- Fast normalized fusion이 정확도 손실 거의 없이(-0.01~-0.11 AP) 26%-31% 더 빠름
- 학습 중 가중치 변화 패턴 분석: 두 방식 모두 유사한 학습 행동 보임
- 컴파운드 스케일링 효과
- 해상도/깊이/너비 중 단일 차원만 스케일링하는 방법과 비교
- 컴파운드 스케일링이 더 효율적인 정확도-효율성 트레이드오프 달성
7. Conclusion
- 효율적인 객체 탐지를 위한 네트워크 설계 선택지를 체계적으로 연구
- 가중치 BiFPN과 커스텀 컴파운드 스케일링 방법을 통해 정확도와 효율성 모두 개선
- 다양한 리소스 제약 범위에서 일관되게 기존 방법보다 우수한 성능 달성
- EfficientDet-D7은 단일 모델, 단일 스케일로 COCO test-dev에서 55.1 AP 달성
'Computer Vision' 카테고리의 다른 글
[2025-1] 전연주 - VAE: Auto-Encoding Variational Bayes (0) | 2025.05.17 |
---|---|
[2025-1] 김유현 - Progressive Growing of GAN (0) | 2025.05.17 |
[2025-1] 전연주 - Patches Are All You Need? (0) | 2025.05.15 |
[2025-1] 전윤경-A FOUNDATION MODEL FOR GENERALIZABLE DISEASEDIAGNOSIS IN CHEST X-RAY IMAGES (0) | 2025.05.09 |
[2025-1] 박지원-Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation (0) | 2025.05.08 |