논문 링크: 1904.09664

저자:

Charles R. Qi (Facebook AI Research)
Or Litany (Facebook AI Research)
Kaiming He (Facebook AI Research)
Leonidas J. Guibas (Facebook AI Research, Stanford University)

발행일: 2019. 08. 22

1. Introduction

3D 객체 탐지의 핵심 목표는 3D 장면에서 객체를 찾아(3D 바운딩 박스) 분류(semantic class)하는 것이다. 이미지를 통한 2D 객체 탐지와 달리, 포인트 클라우드(point cloud)는 객체의 정확한 기하학 정보를 직접 제공하므로 조명 변화 등에 강인한 장점이 있다. 하지만 포인트 클라우드는 불규칙(sparse) 구조를 가지기 때문에, 일반적인 2D CNN과 같은 모델을 그대로 적용하기 어렵다.

기존 3D 객체 탐지 기법들은 이러한 문제를 해결하기 위해 대체로 아래와 같은 방식을 사용해 왔다.

3D CNN 기반 방식: 포인트 클라우드를 3D 격자(voxel) 형태로 변환한 뒤, 3D CNN을 적용하여 객체를 탐지한다. 그러나 3D CNN은 연산 비용이 매우 크고, voxelization 과정에서 많은 양의 빈 공간을 처리해야 하므로 효율성이 떨어진다.
BEV(Bird’s Eye View) 변환: 포인트 클라우드를 탑 뷰(Top-down) 이미지 형태로 투영한 뒤, 2D 탐지기를 사용하는 방식이다. 하지만 복잡한 실내 장면에서는 기하학적 세부 정보가 많이 손실될 수 있다.
2단계 방식(Frustum PointNets 등): 먼저 2D 이미지에서 객체를 탐지한 후, 해당 2D 바운딩 박스를 3D frustum 형태로 확장하여 3D 객체를 로컬라이징한다. 이 경우 2D 탐지기의 성능과 제약에 크게 의존하게 되며, 2D에서 놓친 객체는 3D에서도 탐지할 수 없다.
- 3D 프러스텀(Frustum)은 컴퓨터 그래픽스와 3D 객체 검출 분야에서 중요한 개념으로, 카메라 또는 관찰 지점에서 특정 시야각을 통해 볼 수 있는 공간 영역을 의미한다. 이 영역은 일반적으로 각도가 있는 절두체 형태로, 가까운 면(near plane)과 먼 면(far plane) 사이를 잘라낸 피라미드 모양이다. 이러한 프러스텀은 시야 내에 있는 객체를 결정하고, 시야 밖의 객체를 렌더링에서 제외하는 데 사용된다.
- Frustum PointNet과 같은 기법은 2D 이미지에서 객체의 경계 상자를 검출한 후, 해당 객체가 존재할 것으로 예상되는 3D 프러스텀을 생성한다. 이 프러스텀 내의 포인트 클라우드 데이터를 분석하여 객체의 3D 위치와 형태를 추정한다.

이와 달리, VoteNet은 2D 탐지기의 도움 없이 포인트 클라우드를 직접 처리하여 3D 객체를 탐지하는 모델이다. VoteNet의 핵심 아이디어는 Hough Voting을 딥러닝 방식으로 학습해, 포인트 클라우드 상의 각 포인트가 객체 중심(centroid)을 투표(vote)하도록 만드는 것이다. 이는 객체의 중심부가 종종 빈 공간에 위치하게 되는 포인트 클라우드의 희소성 문제를 효과적으로 해결한다.

이 논문에서는 VoteNet의 설계와 구현, 그리고 SUN RGB-D 및 ScanNetV2 벤치마크 데이터셋에서의 성능 평가를 통해 아래와 같은 기여를 제시한다.

학습된 Hough Voting: 전통적인 코드북 기반 Hough Voting을 딥러닝 형태로 재구성하여, end-to-end로 투표 과정을 최적화한다.
RGB 없이도 높은 성능: 심지어 컬러 정보 없이 포인트 클라우드만으로도 기존의 RGB+D 기반 방법보다 우수한 탐지 성능을 달성한다.
효율성과 정확도: 모델 구조가 단순하고 컴팩트하며, 실시간(또는 준실시간) 응용에도 적합한 수준의 빠른 추론 속도를 제공한다.

2. Related Works

2.1. 3D Object Detection

3D 객체 탐지 분야에서는 객체의 바운딩 박스를 찾기 위해 아래와 같은 다양한 접근 방식이 연구되어 왔다.

3D CNN 기반 방법
- Deep Sliding Shapes(DSS): 3D CNN을 사용하여 3D 공간 전역에서 슬라이딩 윈도우 방식으로 객체를 제안한다.
- 3D-SIS: RGB와 깊이 정보를 함께 3D voxel로 back-projection하여 multi-view feature를 융합(fusion)하는 방식으로 성능을 개선하였다.
- 하지만 3D CNN 연산은 계산 비용이 매우 커 대규모 장면에서 비효율적일 수 있다.
2D 투영 기반 방법
- MV3D, VoxelNet: 3D 포인트 클라우드를 BEV(Bird’s Eye View)나 여러 2D 투영으로 변환한 뒤 2D CNN으로 처리한다.
- Frustum PointNets: 2D 탐지기로 얻은 바운딩 박스를 3D frustum으로 확장하여, 그 내부의 포인트 클라우드만 별도로 처리한다.
- 이처럼 2D 투영 방법들은 2D 탐지기의 성능에 의존하거나, 복잡한 실내 환경에서 세부 정보 손실 문제를 겪는다.
포인트 클라우드 직접 처리 방법
- PointRCNN, GSPN: 포인트넷 계열(PointNet++)을 사용해 포인트 클라우드 자체에서 feature를 추출하고, 이를 이용해 객체를 제안(Proposal)하는 방식을 시도한다.
- 다만 대부분은 여전히 2D 기반 객체 탐지와 결합되거나, 사전에 정규화된 voxel 또는 kNN 방식으로 처리되는 경우가 많다.

결국 기존 연구들은 2D 탐지기 혹은 3D 변환 과정을 통해 간접적으로 3D 객체를 추정하는 경우가 주를 이루었다. 이는 포인트 클라우드의 희소성을 직접 처리하기가 어렵기 때문이다. VoteNet은 이러한 문제점을 해결하기 위해, Hough Voting을 딥러닝과 결합하여 포인트 클라우드에서 직접 3D 객체를 제안하고 분류하는 접근 방식을 택한다.

2.2. Hough Voting for Object Detection

Hough Voting은 2D 객체 탐지에서 사용되던 방식으로, 이미지에서 edge나 corner와 같은 특징적인 부분을 감지한 후, 해당 관심 포인트 주변의 일정한 크기의 패치를 추출하는 방법임. 추출된 패치는 학습 데이터에서 존재하는 패치들과 비교하여 가장 유사한 패치를 찾고, 학습 데이터에서 각 패치가 어떤 객체 object center와 연관되어 있는지를 기반으로 투표를 수행함. 여러 패치에서 투표된 결과들이 객체 중심 근처에서 밀집되면서 최종적인 객체 위치가 결정됨. 즉, 이미지 내 여러 특징 포인트들이 개별적으로 객체 중심을 향해 투표하고, 이 투표들이 모여 객체의 위치를 예측하는 방식임.

모든 voting이 옳바르게 voting이 될 수는 없음. 예로 아래의 그림과 같이 산의 엣지 부분의 패치가 '소'의 엉덩이 부분이랑 잘못 매칭이 되는 경우도 발생함.

그래서 모든 매칭이 이루어진 다음에는 아래와 같이 voting이 밀집되어 있는 곳만 제대로 매칭이 된 voting라고 판단을 하고 Object Detection에 사용하게 됨. 즉 voting space에서 peak 부분만 사용한다고 볼 수 있음.

peak를 찾고 난 이후에는 voting에 기여한 패치들이 어디 있는지 다시 back projection하여 찾음. 그리고 패치들을 바탕으로 아래와 같이 바운딩 박스에 대한 정보를 확인할 수 있게 됨.
이것이 2D Hough Voting의 방법을 이용한 Object detector임.

Hough 변환(Hough Transform)은 1950년대 후반에 제안된 기법으로, 에지나 특징 포인트의 집합에서 특정 형태(직선, 원 등)를 찾는 문제를 파라미터 공간에서의 피크(peak) 탐지 문제로 변환하는 접근이다. 이를 객체 탐지에 확장한 방식이 Generalized Hough Transform이다.

2D Hough Voting 기법에서는 입력 이미지에서 특징점(에지, 코너 등)을 추출한 뒤, 미리 학습(또는 코드북)된 오프셋 정보를 이용해 객체 중심에 대한 투표를 수행한다.
여러 특징점이 같은 위치를 향해 투표하면, 투표가 밀집된 지점이 객체의 중심이 된다.
대표적인 예시로 Implicit Shape Model(ISM) 등이 있으며, vote가 모인 클러스터(peak)를 찾아 최종 바운딩 박스를 형성한다.

3D에서도 Hough Voting을 활용한 연구가 있었지만, 대부분 2D 기반 파이프라인을 3D로 확장하거나, 사전에 정의된 템플릿 매칭 방법을 사용하는 등 모듈이 여러 단계로 분할되어 최적화가 까다로웠다. 최근에는 딥러닝 + Hough Voting 결합을 통해 투표 과정에 가중치(Weight)를 학습하거나, 6D 포즈 추정 등 다양한 분야로 확장하는 연구들이 시도되고 있다.

2.3. Deep Learning on Point Clouds

포인트 클라우드는 불규칙한 구조를 가지므로, CNN처럼 정규 격자를 전제로 한 구조를 직접 적용하기 어렵다. 이에 따라 아래와 같은 접근들이 제안되었다.

VoxelNet: 포인트 클라우드를 3D voxel로 변환하여 3D CNN을 적용하는 방식이다.
Frustum PointNets: 2D 바운딩 박스 정보를 활용하여 포인트 클라우드 범위를 축소한 뒤, PointNet(또는 PointNet++) 기반으로 처리한다.

최근에는 PointNet++과 같은 네트워크가 제안되어, 포인트 클라우드의 지역 구조를 계층적으로 학습하면서도 직접 입력 포인트를 처리할 수 있게 되었다. VoteNet은 바로 이 PointNet++을 백본(backbone)으로 사용하여, 추가적인 2D 투영이나 복잡한 voxel 변환 과정 없이 포인트 클라우드를 그대로 다룬다.

3. Deep Hough Voting

전통적인 Hough Voting 기반 객체 탐지기는 크게 오프라인(offline) 단계와 온라인(online) 단계로 나뉜다.

Offline 단계
- 주어진 객체의 2D(또는 3D) 바운딩 박스 정보를 바탕으로, 특징 패치(또는 포인트)와 객체 중심까지의 오프셋(offset)을 매핑한 코드북(codebook)을 생성한다.
Online 단계
- 입력 데이터에서 특징점을 뽑아 코드북과 매칭한 뒤, 각 특징이 가리키는 객체 중심 좌표에 투표를 한다.
- 여러 특징이 동일한 중심 후보에 투표하여 클러스터가 형성되면, 그 지점이 최종 객체 중심으로 결정된다.

이 방식은 특히 객체 중심이 종종 빈 공간에 위치하는 포인트 클라우드에서도 유리하다. 전통적인 RPN(Region Proposal Network)과 달리, 희소한 포인트들이 가진 부분적 정보를 모아 투표로 보강할 수 있기 때문이다.

하지만 기존 Hough Voting 접근은 여러 모듈(특징 추출, 코드북 매칭, 투표, 클러스터링)이 별도로 동작하므로, 딥러닝 파이프라인과 직접 결합하기 어렵다. 이에 VoteNet은 코드북 탐색 과정을 딥러닝 기반 모듈로 대체하고, end-to-end로 학습 가능하게 설계함으로써, 포인트 클라우드에서 직접 객체 중심을 투표하고 바운딩 박스를 추론한다.

4. VoteNet Architecture

VoteNet은 크게 (1) 포인트 클라우드로부터 투표(vote) 생성 단계와 (2) 투표들을 클러스터링 및 집계(aggregation)하여 객체를 제안(proposal)하고 분류하는 단계로 구성된다. 그 핵심은 학습 가능한 Hough Voting 모듈을 통해 포인트 클라우드 상의 각 포인트(Seed)가 객체 중심으로 투표를 던지도록 하는 것이다.

4.1. Overall Pipeline

Backbone(Feature Extraction)
- 입력 포인트 클라우드 $\{(x_i,y_i,z_i)\}_{i=1}^N$로부터 PointNet++ 백본을 이용해 특징을 추출한다.
- 다운샘플링 과정을 거쳐 $M$개의 Seed 포인트 $\{s_i\}$를 생성한다. 각 Seed는 3D 위치 $\mathbf{x}_i \in \mathbb{R}^3$와 C차원 특징 $\mathbf{f}_i \in \mathbb{R}^C$를 포함한다.
Voting Module
- 각 Seed $\mathbf{s}_i$는 공유된 MLP를 통과해 투표 오프셋 $\mathbf{x}_i'$과 특징 오프셋 $\mathbf{f}_i'$를 예측한다.
- 최종 투표 지점 $\mathbf{y}_i$와 투표 특징 $\mathbf{g}_i$는 다음과 같이 정의된다. $$\mathbf{y}_i = \mathbf{x}_i + \mathbf{x}_i', \quad \mathbf{g}_i = \mathbf{f}_i + \mathbf{f}_i'$$
Proposal & Classification
- 생성된 투표 $\{\mathbf{y}_i, \mathbf{g}_i\}$들을 공간적으로 클러스터링한 뒤(주변 반경 내의 투표들끼리 그룹화), 각 클러스터 단위로 PointNet 기반의 집계(aggregation) 네트워크를 거쳐 최종 객체 존재 가능성(Objectness), 3D 바운딩 박스(center, 크기, 방향), 클래스 등을 예측한다.

4.2. Backbone Network: PointNet++로부터 Seed 포인트 획득

VoteNet은 백본으로 PointNet++을 사용한다. PointNet++은 포인트 클라우드의 지역성을 단계적으로 추출하기 위한 Set Abstraction(SA) 레이어와, 업샘플링을 위한 Feature Propagation(FP) 레이어로 구성된다.

Set Abstraction(SA) 레이어
- 볼 쿼리(Ball Query) 방식을 통해 반경 $r$ 이내에 존재하는 포인트들을 모으고, MLP로 특징을 추출한 뒤, Farthest Point Sampling(FPS)로 포인트 수를 감소시킨다.
  - FPS
- 예: $\text{SA}(n, r, [c_1, c_2, \dots])$ 형태로 표기할 수 있으며, 이는 $n$개로 다운샘플링, 반경 $r$ 내 포인트 집합에 $\text{MLP}[c_1, c_2, \dots]$를 적용한다는 의미다.
Feature Propagation(FP) 레이어
- 인접한 상위 해상도의 포인트 특징들을 보간(interpolation)하고, skip connection 등을 사용해 다시 채널 수를 조정한다. $\text{FP}([c_1, c_2, \dots])$로 표기한다.

최종적으로 PointNet++ 백본의 마지막 부분에서 Seed 포인트 $M$개를 얻는다. 각 Seed $\mathbf{s}_i$는 위치 $\mathbf{x}_i \in \mathbb{R}^3$와 특징 $\mathbf{f}_i \in \mathbb{R}^C$를 가진다.

추가 구현 세부 정보

본 논문에서는 4개의 SA 레이어와 2개의 FP 레이어를 사용하며, 각 레이어의 파라미터(다운샘플링 개수, 반경, MLP 채널)는 실험 섹션에서 제시한 대로 구성한다.

학습 시 데이터 증강으로 Flip, Rotation, Scaling 등을 적용하고, Adam 옵티마이저로 학습한다.

4.3. Deep Hough Voting Module

4.3.1. Voting Generation

기존 Hough Voting은 미리 정의된 코드북을 참조해 오프셋을 얻지만, VoteNet은 이를 딥러닝 MLP 모듈로 대체하여 end-to-end 학습이 가능하도록 했다. 각 Seed $\mathbf{s}_i$는 공유된 MLP를 통과해 다음을 출력한다.

$$\mathbf{x}_i' \in \mathbb{R}^3, \quad \mathbf{f}_i' \in \mathbb{R}^C$$

이를 통해 최종 투표 좌표와 특징은

$$\mathbf{y}_i = \mathbf{x}_i + \mathbf{x}_i', \quad \mathbf{g}_i = \mathbf{f}_i + \mathbf{f}_i'$$

로 정의된다. MLP는 Fully Connected(FC)와 ReLU, Batch Normalization을 포함하며, 마지막 FC 레이어는 보통 $[256, 256, 259]$ 등의 출력 채널을 갖는다(예: $3 + C$ 좌표 및 특징 오프셋).

4.3.2. Vote Regression Loss

포인트 $\mathbf{s}_i$가 실제 객체 표면 위에 있다면, 그 포인트에서 객체 중심까지의 오프셋 $\mathbf{x}_i^{\text{gt}}$를 구할 수 있다. 이를 이용해 L1 회귀 손실을 적용한다.

$$L_{\text{vote-reg}} = \frac{1}{M_{\text{pos}}}\sum_{i} \|\mathbf{x}_i' - \mathbf{x}_i^{\text{gt}}\|_{1} \cdot 1[\mathbf{s}_i \text{ on object}]$$

$\mathbf{x}_i^{\text{gt}}$: Seed $\mathbf{s}_i$에서 실제 객체 중심까지의 GT 오프셋
$1[\mathbf{s}_i \text{ on object}]$: 해당 Seed가 객체 표면에 있는지의 여부(0 또는 1)
$M_{\text{pos}}$: 객체 표면 위에 있는 positive Seed의 개수

SUN RGB-D에서는 3D 바운딩 박스 내부에 속하는 포인트를 객체 표면 포인트로 간주하고, ScanNetV2에서는 mesh 기반의 세밀한 객체 표면 정보를 이용하여 $\mathbf{x}_i^{\text{gt}}$를 계산한다.

포인트가 객체 중심과 0.3m 이하로 가깝다면 확실한 positive, 0.6m 이상으로 멀다면 negative로 간주하고, 그 사이는 무시(ignored)하거나 soft labeling하는 식으로 처리한다.

4.4. Object Proposal & Classification from Votes

4.4.1. Vote Clustering

동일 객체에서 유도된 투표들은 공간적으로 근접하게 모이므로, 일정 반경 내 투표끼리 묶어 클러스터를 생성한다. 이때 보통 Farthest Point Sampling(FPS)을 통해 대표 vote를 뽑고, 주변 vote들을 grouping한다. 반경이 너무 작으면 클러스터가 과하게 쪼개지고, 너무 크면 다른 객체의 vote까지 섞이는 문제가 있으므로 적절한 하이퍼파라미터 선택이 중요하다.

4.4.2. Proposal Network

각 투표 클러스터는 여러 개의 $(\mathbf{y}_i, \mathbf{g}_i)$로 구성된다. 이를 PointNet 형태의 집계 네트워크에 통과시켜 최종 예측값을 얻는다. 간단히 표현하면 아래와 같다.

$$p(C) = \text{MLP}_2 \left( \max_{i=1}^{n} \text{MLP}_1([\mathbf{y}_i,\mathbf{g}_i]) \right)$$

$\text{MLP}_1$은 각 투표 $[\mathbf{y}_i,\mathbf{g}_i]$에 대해 특징을 추출한다.
모든 투표에 대한 특징을 max-pooling 한 뒤, $\text{MLP}_2$를 통해 객체성(objectness), 3D 바운딩 박스(center, 크기, heading), 의미론적 클래스 등을 예측한다.

4.4.2.1. Bounding Box Parameterization

회전(orientation)까지 포함된 3D 바운딩 박스를 추정하기 위해, 다음과 같은 파라미터를 예측한다.

Center: $\mathbf{c} \in \mathbb{R}^3$
Heading: 3D 방향을 $N_H$개의 bin으로 분류하고, 각 bin에서 작은 회전 오프셋을 회귀한다(예: $\theta = \theta_{\text{bin}} + \theta_{\text{offset}}$).
Size: 카테고리별 혹은 프리셋 템플릿별 크기 분류 + 크기 회귀를 결합한다.

출력 채널 수는 예를 들어

$$5 + 2N_H + 4N_S + N_C$$

로 구성되는데, 여기서

5개 중 2개는 objectness(classification), 3개는 center regression
$N_H$는 heading bin 개수(각 bin의 분류 스코어 + 오프셋 회귀)
$N_S$는 size 템플릿 개수(크기 분류 스코어 + 크기 스케일 회귀)
$N_C$는 semantic 클래스 개수이다.

4.4.3. Loss Functions

VoteNet은 여러 가지 손실 항목을 합친 멀티태스크 손실을 사용한다:

$$L_{\text{VoteNet}} = L_{\text{vote-reg}} + \lambda_1 L_{\text{obj-cls}} + \lambda_2 L_{\text{box}} + \lambda_3 L_{\text{sem-cls}}$$

$L_{\text{vote-reg}}$: 앞서 정의한 투표 오프셋 회귀 손실
$L_{\text{obj-cls}}$: 객체 존재 유무(objectness) 분류(Cross Entropy)
$L_{\text{box}}$: 3D 바운딩 박스 예측 손실(중심, 방향, 크기를 모두 포함)
$L_{\text{sem-cls}}$: 객체 클래스 분류(Cross Entropy)

손실 가중치는 논문에서 $\lambda_1=0.5$, $\lambda_2=1$, $\lambda_3=0.1$로 설정한다.

4.4.3.1. Box Loss 세부 항목

3D 바운딩 박스 손실 $L_{\text{box}}$는 크게 다음의 합으로 구성된다.

$$L_{\text{box}} = L_{\text{center-reg}} + 0.1\,L_{\text{angle-cls}} + L_{\text{angle-reg}} + 0.1\,L_{\text{size-cls}} + L_{\text{size-reg}}$$

Center, Angle, Size 각각 회귀(또는 분류+회귀)를 한다.
각 항목은 Smooth L1 혹은 Cross Entropy를 적절히 사용하며, 분류 결과와 회귀 결과를 합쳐 객체 바운딩 박스를 정확히 예측한다.

5. Experiments

5.1. Datasets and Experimental Settings

SUN RGB-D

단일 뷰 RGB-D 이미지 5,000장을 포함하며, 37개 객체 카테고리에 대한 3D 바운딩 박스 어노테이션이 존재한다.
표준 프로토콜에 맞춰 가장 빈도가 높은 10개 객체 카테고리에 대해 평가(mAP)를 보고한다.
VoteNet은 깊이 데이터를 포인트 클라우드로 변환하여 입력으로 사용하며, RGB를 사용하지 않는다.

ScanNetV2

1,200개 이상의 완전 재구성된 실내 장면(mesh)으로 구성되며, 18개 카테고리에 대한 인스턴스 세그멘테이션 정보가 주어진다.
완전한 3D 메쉬 기반 데이터이므로, 부분적으로만 관측되는 SUN RGB-D에 비해 더 많은 객체와 넓은 범위의 장면을 포함한다.
amodal 또는 회전(orientation) 정보가 없으므로, axis-aligned 바운딩 박스 탐지 설정으로 평가한다.

평가 지표

mAP@0.25, mAP@0.5 등 다양한 IoU 임계값에서의 Average Precision을 측정한다.
ScanNetV2에서는 대회 프로토콜상 axis-aligned 3D IoU를 기준으로 평가한다.

5.2. Comparison with State-of-the-art

아래 대표적인 기법들과 성능을 비교하였다.

DSS(Deep Sliding Shapes), 3D-SIS: 3D CNN 기반. RGB와 깊이를 함께 voxel 변환 후 슬라이딩 윈도우 탐지.
2D-driven / F-PointNet: 2D 바운딩 박스를 먼저 찾고, 해당 frustum만 포인트넷으로 처리.
COG(Clouds of Oriented Gradients): 3D HoG 유사 특징을 활용한 고전적인 슬라이딩 윈도우 방식.
MRCNN 2D-3D: Mask R-CNN으로 2D 인스턴스 세그멘테이션 후, 이를 3D로 투영하여 바운딩 박스 추정.
GSPN: PointNet++ 기반 generative model로 3D 객체를 제안한 뒤 분류.

SUN RGB-D 결과

VoteNet은 RGB 정보를 사용하지 않음에도 57.7% mAP로, 대부분의 기존 방법을 능가한다. 특히 의자(chair) 카테고리 등 객체 중심이 표면과 멀리 떨어져 있는 경우, 성능 향상이 두드러진다.

ScanNetV2 결과

ScanNet 장면 내에서 VoteNet이 예측한 투표 결과를 시각화 .

VoteNet은 단순히 포인트 클라우드(geometry)만 사용하면서도, 3D-SIS 대비 33% 가까이 높은 mAP를 달성한다. 또한 연산 효율도 매우 뛰어나, 대규모 실내 장면에서도 빠른 추론을 제공한다.

또한 그림에서, 객체 중심으로 투표가 정확히 집중됨을 확인할 수 있었다. 객체가 아닌 포인트들은 의미 없는 투표를 수행하거나, 객체 중심을 향해 투표하는 경향을 보인다.

5.3. Ablation Study: To Vote or Not To Vote?

투표 단계가 정말로 성능 향상에 기여하는지 확인하기 위해, Voting 없이 동일 백본(PointNet++)으로 직접 바운딩 박스를 회귀하는 “BoxNet”을 구성해 비교했다.

SUN RGB-D: 약 5 mAP 향상
ScanNetV2: 약 13 mAP 향상

이는 포인트 클라우드 상에서 객체 중심이 직접 관측되지 않는 경우가 많기 때문에, 각 포인트가 투표로 중심 정보를 보강할 수 있음을 의미한다. 실제로 객체 표면과 중심 사이 거리가 클수록 투표 효과가 더욱 커진다는 결과도 확인되었다.

3D 포인트 클라우드 데이터는 매우 sparse하기 때문에, 일반적으로 객체의 중심부(centroid)가 직접 관측되지 않는 경우가 많다. 즉, 기존 포인트들이 객체 중심에서 멀리 떨어져 있으면, 그대로 바운딩 박스를 회귀(regression)할 때 신뢰도가 낮고 부정확해질 위험이 크다. 반면에 Hough Voting 방식을 사용하면, 각 포인트가 객체 중심 방향으로 투표하게 되면서 낮은 신뢰도의 포인트들까지도 중심부로 정보를 모을 수 있어, 보다 정확한 바운딩 박스 예측이 가능해진다.

이를 ScanNetV2 장면에서 시각적으로 살펴본 결과,

BoxNet의 경우 객체 중심을 적절히 예측할 수 있는 Seed 포인트 수가 제한적이었으나,
VoteNet은 훨씬 더 넓은 범위에서 유효한 Seed 포인트가 중심으로 투표를 모아 정확도를 높이는 모습을 확인할 수 있었다.

또한, 이 현상을 객체 중심과 표면 사이의 거리에 따라 분석했을 때, 객체 표면과 중심 간의 거리가 멀수록 Voting 기법이 성능 향상에 더 큰 기여를 하는 것으로 나타났다. 즉, Voting 과정이 장면 전체의 컨텍스트를 보다 효과적으로 통합하여, 희소한 포인트 클라우드에서도 신뢰도 높은 3D 바운딩 박스를 추론할 수 있도록 돕는다.

5.4. Vote Aggregation and Model Efficiency

5.4.1. Vote Aggregation 기법

투표를 모으는(aggregation) 방식으로 단순 평균이나 최대 풀링을 사용할 수도 있으나, VoteNet에서는 PointNet 기반의 학습된 집계 모듈을 사용해 최적의 성능을 달성했다. 또한 투표를 묶는 클러스터 반경이 너무 크면 잡음이 늘고, 너무 작으면 과분할이 일어나므로 적절한 값이 중요하다.

5.4.2. 모델 크기 및 속도

VoteNet은 다음과 같은 장점을 보인다.

컴팩트한 파라미터 수: 예를 들어 F-PointNet 대비 4배 이상 파라미터가 적다.
빠른 추론 속도: ScanNetV2 기준, 3D-SIS가 한 장면당 2.85초 걸리는 반면 VoteNet은 0.14초 수준으로 실시간(또는 준실시간) 응용에도 적합하다.

5.5. Qualitative Results and Additional Analysis

5.5.1. 시각적 예시

ScanNetV2나 SUN RGB-D 장면에서, VoteNet은 복잡하게 겹쳐 있거나 일부만 관측된 객체도 상당히 정확히 잡아낸다. 특히 의자나 책상처럼 표면적이 넓은 객체를 잘 감지하며, 벽이나 창문처럼 얇고 RGB 의존도가 큰 객체는 상대적으로 어렵다.

5.5.2. 객체 중심 거리와 Voting 효과

SUN RGB-D의 각 카테고리에 대해, “BoxNet” 대비 “VoteNet”의 mAP 향상량과 객체 표면-중심 간 평균 거리를 분석한 결과, 표면과 중심이 먼 카테고리일수록 Voting이 더 큰 이득을 준다는 사실이 확인되었다.

5.5.3. Proposal 개수

Proposal 개수를 달리했을 때의 AP/AR 변화를 살펴보면, 10개 제안만으로도 꽤 높은 AP를 달성하고, 100개 이상 제안 시 57% 이상의 AP, 1000개 제안 시 87.7% 이상의 AR을 얻을 수 있다. 이는 Sparse한 포인트 클라우드에서 Hough Voting이 얼마나 효율적으로 정보를 통합해주는지 보여준다.

5.5.4. ScanNet 객체별 성능

ScanNetV2의 18개 객체 카테고리별 mAP@0.25, mAP@0.5를 살펴보면, 침대(bed), 의자(chair), 책상(desk) 등 기하학 정보가 명확한 객체에서 높은 성능을 얻는다. 반면 그림(picture)처럼 색상·텍스처 기반 구분이 큰 역할을 하는 객체는 성능이 다소 낮다(RGB를 사용하지 않기 때문).

6. Conclusion

본 논문에서는 포인트 클라우드용 3D 객체 탐지를 위해 전통적 Hough Voting 개념을 딥러닝 형태로 재구성한 VoteNet을 제안하였다. 복잡한 실내 장면에서도, 색상 정보 없이(Depth만으로도) 객체 중심을 효과적으로 투표하여 3D 바운딩 박스를 추론할 수 있음을 다양한 실험으로 검증했다.

주요 기여는 다음과 같다.

학습 가능한 Hough Voting 모듈: 코드북 기반 오프라인 방식이 아니라, 딥러닝으로 투표 과정을 end-to-end 학습함으로써 효율성과 정확도를 모두 높였다.
희소 포인트 클라우드에서의 탁월한 성능: SUN RGB-D, ScanNetV2 등에서 RGB 없이도 기존의 RGB+D 기반 방법보다 우수한 성능을 달성하였다.
경량성·실시간성: 파라미터 수가 작고, 추론 속도가 빨라 실제 적용 가능성이 높다.

Future Works로는 다음이 있다.

RGB와의 결합: 현재는 Depth 정보만 사용하지만, RGB 정보를 활용하면 얇은 물체나 텍스처 기반 식별이 필요한 객체 인식이 더 정확해질 것으로 기대된다.
3D 인스턴스 세그멘테이션 등 확장: 투표 기반 접근을 다양한 다운스트림 과제(예: 3D instance segmentation, 6D pose estimation)에도 적용 가능할 것이다.
템플릿 기반 탐지, 의료 영상 분석 등: 전통적 Hough Voting이 쓰이던 모든 분야에서, 딥러닝 결합을 통한 시너지 효과를 기대할 수 있다.

'Computer Vision' 카테고리의 다른 글

[2025-1] 임수연 - SPVNAS (0)	2025.03.07
[2025-1] 김유현 - Wasserstein GAN (0)	2025.02.28
[2025-1] 박서형 - DemoFusion: Democratising High-Resolution Image Generation With No $$$ (0)	2025.02.22
[2025-1] 임수연 - Mask R-CNN (0)	2025.02.22
[2025-1] 전윤경- Multimodal Unsupervised Image-to-Image Translation (0)	2025.02.21

[2025-1] 전연주 - VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds