본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1]전윤경 - VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

by rachel2003 2025. 3. 7.

Introduction

VoxelNet : 포인트 클라우드에서 판별적인 특징 표현을 학습하는 동시에 정확한 3D 바운딩 박스를  end-to-end 학습이 가능한 통합 3D 탐지 네트워크(LiDAR만을 이용한 탐지)

  • 포인트 클라우드를 일정한 간격의 3D 복셀로 나눔
  • 복셀 특징 인코딩(VFE) 레이어를 활용 -> 각 복셀 내의 포인트 그룹을 통합된 특징 표현으로 변환
  • RPN(효율적인 객체 탐지를 위한 최적화된 알고리즘)과 연결되어 탐지를 수행

VoxelNet

 

  1. 특징 학습 네트워크(Feature learning network)
  2. 합성곱 중간 계층(Convolutional middle layers)
  3. 영역 제안 네트워크(Region proposal network, RPN)

1. Feature learning network

복셀 분할

  • 포인트 클라우드를 3D 공간에서 동일한 크기의 복셀들로 나눔
  • 복셀 크기: $v_D , v_H , v_W$

 

 

그룹화

  • 각 포인트를 해당하는 복셀에 할당
  • 복셀마다 포함하는 포인트 개수 다름

 

랜덤 샘플링

포인트 개수가 T개보다 많은 복셀에서는 T개를 무작위로 샘플링

  • 계산 비용 절감 
  • 복셀 간 포인트 불균형을 줄여 학습 데이터를 다양하게 만들고, 편향을 줄임

누적 복셀 특징 인코딩(Stacked Voxel Feature Encoding, VFE)

VFE 레이어의 연속적인 구조

 

VFE-layer1

  • V :  LiDAR 포인트를 포함하는 비어 있지 않은 복셀
  • 각 포인트 $p_i$(4차원 벡터): x,y,z: 3D 좌표, r:  반사 강도
  • 복셀 V 내 평균 좌표

 

 

완전 연결 신경망 (FCN) 통과

선형 변환(Linear Layer), 배치 정규화(BN), ReLU 활성화 함수로 구성

  • 포인트 별 특징 $f_i$ : 복셀 내 표면(shape)을 인코딩
  • 모든 포인트 $f_i$ 에 대해 MaxPooling 을 적용->복셀 전체의 집계 특징 $\widetilde{f}$
  • $f_{out,i}=[f_i^T ,\widetilde{f}_i^T]^T$
  • $ V_{out}=\left\{f_{out,i}\right\}$

 

 

->  복셀 내 포인트 간 상호작용 학습, 입체형상정보를 풍부하게 인코딩

 

Sparse Tensor Representation

  • 비어 있지 않은 복셀만을 처리한 복셀 특징 리스트
  • 메모리 사용량을 크게 줄이고, 역전파 계산 비용을 절감

 

2. 합성곱 중간 계층(Convolutional Middle Layers)

3D 합성곱, 배치 정규화(BN) 레이어, ReLU 활성화 함수를 순차적으로 적용

 

3. 영역 제안 네트워크 (Region Proposal Network, RPN)

  • 입력: 합성곱 중간 계층에서 제공하는 특징 맵
  • 세 개의 완전 합성곱 계층 블록으로 구성
  • 배치 정규화(BN) 및 ReLU 연산이 적용

  • 확률 점수 map: 객체가 존재할 확률을 제공하는 분류적인 정보
  • 회귀 map: 객체의 위치나 크기, 자세 등과 같은 연속적인 값들을 예측하는 정보

손실함수

  • 3D 실제 객체 상자(ground truth box)를 $(x^g_c, y^g_c, z^g_c, l^g, w^g, h^g, θ^g)$
  • 양성 anchor: $(x^a_c, y^a_c, z^a_c, l^a, w^a, h^a, θ^a)$

 

u* ∈ R⁷


da = $\sqrt{\left ( l^a \right )^2 + \left ( w^a \right )^2}$: 앵커 박스의 대각선 길이

pᵢᵖᵒˢ 및 pⱼⁿᵉᵍ:  각각 양성 및 음성 앵커의 소프트맥스 출력

$L_{cls}$: 이진 교차 엔트로피(binary cross-entropy) 손실

$L_{reg}$ : SmoothL1  함수를 이용한 회귀 손실

  • K: 최대 비어 있지 않은 복셀 수
  • T: 복셀당 최대 점 개수
  • 7: 각 점의 입력 차원 수

데이터 증강

1.  모든 실제 박스와 해당 박스 내의 LiDAR 포인트에 대해 독립적으로 교란을 적용

2. 모든 실제 박스와 전체 포인트 클라우드에 대해 글로벌 스케일링(global scaling)을 적용

3. 모든 실제 박스와 전체 포인트 클라우드에 대해 글로벌 회전(global rotation)을 적용

 

Experiments

KITTI 3D 객체 탐지 벤치마크( 자동차(Car), 보행자(Pedestrian), 자전거 이용자(Cyclist) ) 에서 평가

객체 크기, 가림 정도, 절단 여부 -> 난이도 수준: easy,moderate, 어려움

평가지표:  KITTI 공식 평가 프로토콜, 평균 정밀도(AP, Average Precision) 사용

  • 이미지 기반 방식: Mono3D , 3DOP 
  • LiDAR 기반 방식: VeloFCN , 3D-FCN 
  • multimodal 방식: MV  (LiDAR + RGB 이미지)

 

  • 모델의 RPN이 효과적임을 입증
  • VoxelNet이 HC-baseline보다 높은 AP:핸드 크래프트 특징보다 end-to-end 학습 방식이 point cloud 기반 탐지에서 훨씬 중요
  • 3D 탐지 성능이 bird’s eye view보다 더 큰 차이, VoxelNet이 압도적인 우위를 차지