[25-1] 박지원 - Deep-Emotion: Facial Expression RecognitionUsing Attentional Convolutional Network
Original paper ) https://arxiv.org/abs/1902.01019
Deep-Emotion: Facial Expression Recognition Using Attentional Convolutional Network
Facial expression recognition has been an active research area over the past few decades, and it is still challenging due to the high intra-class variation. Traditional approaches for this problem rely on hand-crafted features such as SIFT, HOG and LBP, fo
arxiv.org
1. Introduction
- 얼굴 표정 인식은 활발히 연구되는 것에 비해, 여전히 높은 클래스 내 변동성으로 인해 어려운 task로 불림
- 전통적인 접근법은 SIFT, HOG, LBP와 같은 특징 추출 기법을 기반으로 함
- 위와 같은 방법들은 제어된 환경에서 촬영된 이미지 데이터셋에서는 괜찮은 성능을 보이지만, 이미지 변형이나 부분 얼굴이 포함된 데이터셋에서는 성능이 저하되는 경향을 보임.
이에 최근에는 심층 학습 모델을 활용한 종단간 방식이 제안되었으나, 여전히 개선되어야 할 부분이 많기에 본 연구에서는 Attentional 합성곱 신경망을 기반으로 한 새로운 접근법을 제안하여, 얼굴의 중요한 부분에 집중하여 감정 인식의 정확도를 크게 향상시키고자 하였음.
2. Mehods
- 제안된 프레임워크는 Attentional Convolutional Network을 통해 얼굴 이미지의 감정을 분류하는 프레임워크
- 기존의 전통적인 두 단계 기계 학습 접근법은 이미지를 통한 특징 추출과 SVM, 신경망, 랜덤 포레스트 등의 분류기를 사용하는 방식이었음. 그러나 특정 감정을 감지하는 데 있어 얼굴의 특정 영역에 집중하는 것이 중요하기 때문에, 이에 초점을 맞춰 정확도를 확실하게 높임.
2.1. 모델 아키텍처
제안된 모델은 위와 같은 구조를 가짐.
- 특징 추출기: 네 개의 합성곱 층과 각 층마다 최대 풀링 및 ReLU 활성화 함수가 포함되어 있음. 이 후 드롭아웃 층과 두 개의 완전 연결 층이 이어짐.
- 주의 메커니즘: 공간 변환 네트워크는 두 개의 합성곱 층(각각 최대 풀링 및 ReLU 포함)과 두 개의 완전 연결 층으로 구성되어 있음. 이 네트워크는 이미지의 가장 관련성 높은 부분에 집중하도록 설계됨.
2.2. 실험
본 연구에서는 다음과 같은 데이터셋을 사용하여 실험을 진행함
- FER2013: 35,887개의 48x48 해상도 이미지로 구성되어 있으며, 대부분 야외에서 촬영됨.
- CK+: 593개의 시퀀스가 포함된 데이터셋으로, 감정 인식에 사용됨.
- JAFFE: 213개의 이미지로, 10명의 일본 여성 모델이 다양한 표정을 지은 사진
- FERG: 55,767개의 스타일화된 캐릭터 이미지로 구성되어 있음.
3. 실험 결과
제안된 모델은 다양한 데이터셋에서 높은 정확도를 기록했음.
ex) FER 데이터베이스에서 모델의 정확도는 약 70.02%, FERG 데이터셋에서는 99.3%, JAFFE에서는 92.8% 달성
이러한 결과는 Attention의 활용이 얼굴 표정을 인식하는 데 필요한 부분을 강조하여 정확한 분류를 도왔음을 입증
3-1. 성능 분석
모델 훈련에는 FER 데이터베이스에서 약 2-4시간, JAFFE 데이터셋에서는 10분 이내에 완료됨. 실험 결과, 표정 인식에서 얼굴 변화의 세세한 분석이 필요하며, 특히 여러 감정의 경우 이미지마다 중요한 영역이 상이할 수 있음이 확인됨.
4. 결론
본 연구에서는 Attentional 합성곱 네트워크를 활용한 새로운 얼굴 표정 인식 프레임워크를 제안했고, 이 방법은 10층 이하의 간단한 모델로도 깊은 네트워크와 경쟁할 수 있는 성능을 보여주었으며, 다양한 데이터셋에서 유망한 결과를 나타냈음
또한, 얼굴 이미지에서 감정 인식을 위한 중요한 영역을 강조하는 시각화 방법을 제공하여, 감정 인식의 정확도를 높이는 데 기여하였다는 점에서 의미가 있음.
4-1. Novelty (새로운 점)
- Attention 메커니즘: 본 연구는 기존의 얼굴 표정 인식 방법에서 Attention 메커니즘을 도입하여, 얼굴의 중요한 부분에 집중하도록 설계된 Attentional Convolutional Network을 제안함. 기존의 방법들은 일반적으로 얼굴의 모든 영역을 동일하게 처리했으나, 본 연구는 특정 감정에 민감한 얼굴의 특정 영역에 집중함으로써 성능을 개선하였고 이렇게 얼굴 표정 인식의 정확도를 크게 향상시키는 데 기여했음.
- 간단한 모델 구조: 제안된 모델은 10층 이하의 간단한 구조로도 높은 정확도를 달성할 수 있음을 보여줌. 이는 기존의 복잡한 심층 신경망 구조와 비교할 때, 더 효율적이고 효과적인 학습이 가능하다는 점에서 혁신적임!
Contribution (학문적 기여)
- 정확도 향상: 본 연구는 FER-2013, CK+, FERG, JAFFE 등 여러 데이터셋에서 제안된 모델이 기존의 방법들보다 높은 정확도를 기록함을 입증함. 특히, FERG 데이터셋에서는 99.3%의 정확도를 달성하기도 했음!
- 시각화 기법: 주의 메커니즘을 활용하여 얼굴 이미지에서 감정 인식에 중요한 부분을 시각화하는 방법을 제안. 이는 연구자들이 감정 인식의 과정에서 어떤 얼굴 부분이 중요한지를 이해하는 데 도움을 줌.
- 다양한 응용 가능성: 제안된 프레임워크는 인간-컴퓨터 상호작용, 애니메이션, 보안 등 다양한 분야에서 활용될 수 있는 가능성을 보여줌.