본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 박서형 - How far are we from solving the 2D & 3D Face Alignment problem? (and adataset of 230,000 3D facial landmarks)

by ejrwlfgksms skffkddl 2025. 4. 5.

https://arxiv.org/abs/1703.07332

 

How far are we from solving the 2D & 3D Face Alignment problem? (and a dataset of 230,000 3D facial landmarks)

This paper investigates how far a very deep neural network is from attaining close to saturating performance on existing 2D and 3D face alignment datasets. To this end, we make the following 5 contributions: (a) we construct, for the first time, a very str

arxiv.org

 

 

0. Abstract

 

본 논문은 아주 deep한 신경망이 face alignment를 얼마나 잘하는지 평가하고 있다. 그리고 face alignmnet 모델과 관련된  5가지 contribution을 이뤄냈다. 

( face alignmnet란? -> 얼굴 이미지에서 눈,코,입 등의 특정 위치, 랜드마크를 정확히 찾아내는 작업 )

a) 2D 기준으로 가장 강력한 baseline 모델 구성

b) 2D 데이터를 3D로 바꾸는 네트워크를 설계하여 2D 데이터셋을 이용해 LS3D-W라는 대형 3D 데이터셋을 생성

c) 별도의 3d 모델을 이용하여 LS3D-W에 대해 face alignmnet 학습

d) 성능에 영향을 주는 요인 분석 -> large pose, initialization, resolution, 네트워크 크기

e) 2D, 3D 모두 완벽한 성능에 도달함을 확인

 

 

 

1. Introduction

 

face alignmnet는 지금까지 얼마나 성과가 있었는지 정리된 게 부족하다. 본 논문은 그 공백을 메우는 걸 목표로 한다. 그동안 pose estimation에는 pictorial structure, cascaded regression을 거쳐 heatmap 기반 CNN 기법이 주를 이루고 있다. 이는 학습을 시킬 때 사람 손이 많이 필요하지 않고 복잡한 자세에서도 매우 높은 정확도를 보이기 때문에 이 방식을 face alignment에 적용해도 좋을 것이라 판단했다.  따라서 본 논문의 핵심적 목표는 ' heatmap 기반 강력한 CNN을 face alignment에 적용해서 훈련시키고 기존의 2D/3D 데이터셋에서 얼마나 높은 정확도에 도달했는지 확인해보는 것'이다.

 

1) 최신 아키텍쳐 + Residual block을 결합하여 강력한 2D face alignmnet 모델 설계 -> 성능 평가

2) 2D 데이터를 3D로 변환하는 CNN 설계 -> LS3D-W 데이터셋 구축

3) 기존의 3D face alignment 네트워크를 훈련시켜 LS3D-W로 평가

4) 성능에 영향 주는 요인 분석

5) 2D,3D에서 모두 정확한 성능 달성

 

 

 

2. Datasets

 

 

2.1. ) Training datasets

네트워크 학습에는 300W-LP 데이터셋이 사용되었다. 이는 300-W 데이터셋을 기존의 렌더링 모델을 이용하여 다양한 각도로 돌린 이미지를 포함하는 데이터셋으로 이러한 과정을 synthetic이라고 한다. annotation(주석)이 각각 2d,3d라는 건 landmark의 위치를 2d로 표현했는가, 3d로 표현했는가의 차이이다. 본 논문에선 FAN 모델을 각각 300W-LP-2D와 300W-LP-3D로 학습시켜 2d/3d face alignment 모델을 구성했다. 

 

2.2. ) Test datasets

2D : 300-W, 300-VW, Menpo

3D : AFLW2000-3D

 

3.3. ) Metrics

기존의 방식은 Euclidean distance를 눈 사이 거리로 정규화해서 사용한다. 그러나 측면 얼굴에서는 눈 사이  거리가 작아서 오류율이 크다. 그래서 본 논문은 그 대안으로 bounding box 크기로 정규화된 평균오류 (NME)를 사용

xk : 정답좌표

yk : 예측좌표

d : wbox * hbox

-> 눈 사이 거리 대신 바운딩 박스를 기준으로 정규화

 

 

 

3. Method

 

3.1. ) 2D and 3D Face Alignment Networks

FAN ( face alignment network ) -> 2D/3D 데이터의 face alignment에 사용

  • 기존의 HourGlass 구조 기반 ( pose estimation에서 자주 사용하는 구조 ) 
  • 4개의 HG를 쌓은 구조
  • 기존 HG의 bottleneck block 대신  hierarchical, parallel, multi-scale block 사용

 

3.2. )  2D-to-3D Face Alignment Network

3D annotation이 부족하기 때문에 2D landmark를 3D landmark로 변환하는 CNN을 구축하여 3D annotation을 자동으로 생성하게 함

  • 기존 FAN 구조 기반
  • 입력채널에 RGB + 68개의 채널을 추가
  • 각 채널은 하나의 2D 랜드마크를 중심으로 한 2D gaussian heatmap
  • 이걸로 LS3D-W 데이터셋 생성

 

4. Experiment

 

1) 2D

2) 3D

 

 

3) 성능 영향 요인 분석

large pose, initialization, resolution -> FAN은 안정적인 성능

network size -> 영행 제한적, 작은 모델이라도 충분한 성능