본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

[2023-2] 염제원 - Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

by Scuttie 2023. 11. 24.
 

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

We propose an algorithm for meta-learning that is model-agnostic, in the sense that it is compatible with any model trained with gradient descent and applicable to a variety of different learning problems, including classification, regression, and reinforc

arxiv.org

 

Abstract

  • Model-Agnostic한 Meta-Learning 알고리즘 (MAML)을 제시함
  • Gradient Descent 기반 학습이 이루어진다면 어떤 모델이든 적용이 가능하며, Classification, Regression, 그리고 Reinforcement Learning까지 이르는 문제에 광범위하게 적용 가능함
  • 적은 양의 Training Sample 만으로도 새로운 Task를 잘 풀 수 있음
  • 적은 양의 Training Data와 적은 수의 Gradient Step으로도 새로운 Task에 대한 Generalization이 잘 이루어짐
  • Few-Shot Image Classification에서 SOTA(State-of-the-art)를 달성하였고, 그 외 Few-Shot Regression이나 Neural Network 기반 Policy Gradient Reinforcement Learning에서도 좋은 성과를 보임

Introduction

  1. 인간지능의 특징
    • 빠르게 배움 (Learning quickly)
    • 적은 양의 샘플만으로도 사물 인식을 잘 함
    • 시범을 조금만 보여도 금방 새로운 기술을 배움
  2. Meta-Learning
    • Learn to Learning (학습하는 방법에 대한 학습)
    • 이전 경험을 토대로 적은 양의 신규 정보로도 학습을 잘 수행해냄과 동시에, 새로운 데이터에 대한 overfitting도 방지해야 함
  3. MAML의 장점
    • Model-Agnostic (모델에 관계 없이 적용 가능함)
    • Parameter의 개수가 늘어나지도 않으며 모델 구조에 대한 제약이 없음
    • FC Neural Network, CNN, RNN에 모두 적용 가능함
    • Loss Function이 바뀌어도 적용 가능함
    • Feature Learning의 관점에서는 많은 Task에 광범위하게 적용가능한 Internal Representation을 구성한다고 볼 수 있음
    • Dynamical Systems 관점에서는 새로운 Task의 Loss function에 대한 Parameter의 민감도를 극대화 한다고 볼 수 있음

Model-Agnostic Meta-Learning

  1. Meta-Learning Problem Set-Up
    • Task: Loss function, 관측치의 확률 분포, 그리고 전이 분포 (episodic 학습의 경우)로 이루어져 있음
    • Meta-Learning의 상황에서는 Task의 확률분포를 생각함
    • Meta-Training: Task의 확률분포 p(T)에서 각 Task Ti를 뽑아서, Ti의 관측치로 학습한 뒤 Ti의 관측치를 예측해서 Ti의 Loss function으로 평가하고, 피드백을 줌
    • Meta-Testing: Task의 확률분포 p(T)에서 Meta-Training 과정에서 뽑히지 않았던 Task를 뽑아서 같은 과정으로 학습한 뒤, 뽑힌 Task들의 Loss function으로 평가함
  2. A Model-Agnostic Meta-Learning Algorithm
    • 기본 가정: Internal Representation 중 더 전이가 쉬운 것들이 존재함
    • MAML에서는 p(T)의 새로운 Task에 빠르게 적응할 수 있는 Gradient-based 학습 방법을 적용함
      1. Meta-Parameter가 랜덤하게 주어짐
      2. p(T)에서 Task들을 샘플링함
      3. 샘플링된 각 Task에 대해, Task에서 K개의 데이터를 뽑아서 해당 Task의 Loss function으로 평가하고, 해당 Task의 Parameter에 대해 Gradient Descent Update를 진행함
      4. 샘플링 된 전체 Task에 대해 Loss를 총합한 Meta-Loss function에 대해 Meta-Parameter를 Gradient Descent Update 함

FIgure 1. MAML 알고리즘을 설명하는 다이어그램

 

Figure 2. MAML 알고리즘

 

Species of MAML

  1. Supervised Regression and Classification
    • Few-Shot Classification: 적은 양의 Training Sample로도 분류를 잘 수행하려는 연구 분야
    • Few-Shot Regression: 적은 양의 Training Sample로도 Regression을 잘 수행하려는 연구 분야
    • MAML 논문에서는 해당 분야를 MAML 관점으로 접근하고, 각 분야에 맞는 알고리즘을 제시하면서 MAML이 이 분야에도 잘 적용될 수 있음을 보여줌
  2. Reinforcement Learning
    • Few-Shot Meta-Learning: Agent가 새로운 Task에 대한 Policy를 적은 경험만으로도 빠르게 얻으려는 연구 분야
    • MAML 논문에서는 해당 분야를 MAML 관점으로 접근하고, 이 분야에 맞는 알고리즘을 제시함

Experimental Evaluation: Regression

  • 진폭 [0.1,5], 위상 [0, pi]를 갖는 사인파에서 K개의 Data Point를 주고 Regression을 하는 Task
  • 비교 모델
    • 모든 Task (랜덤한 사인파) 에 대해 Pretrain한 모델에 대해 새로운 사인파의 K개의 Data Point를 제공하여 Fine-Tuning을 진행한 모델
    •  Oracle 
    • MAML 기법으로 학습한 모델 (10개의 example로 Meta-Training을 진행함)

Figure 3. Sine Wave Regression에서 MAML 모델과 Pretrained 모델의 성능 비교

 

Experimental Evaluation: Classification

  • N-way K-shot Classification Task (Omniglot, MiniImagenet)
    • N개의 학습하지 않은 Class를 선택하고 각 Class마다 K개의 예시들을 제공함
  • MAML 방식으로 학습한 모델과 다른 기존 모델들을 실험하고 비교함
  • Convolutional 방식이 아닌 모델에도 MAML이 잘 적용됨을 보이기 위해 Convolutional Network가 아닌 모델에 대해서도 실험함
  • MAML이 Gradient 계산이 두번 수행됨에 따라 이계도미분이 포함되는데, First Order Approximation을 한 뒤의 MAML 결과에 대해서도 실험함
  • 해당 Task에서는 SOTA를 달성했으며, Non-convolutional Network에도 성능 향상이 있었고, First-Order Approximation을 하더라도 성능 하락이 눈에 띄지는 않는 정도임을 확인했음. 이 이유에 대해서는 사용 모델 내부에 ReLU가 Activation Function으로 활용이 되었는데, ReLU는 locally linear한 함수라서 이계도 미분이 대부분 0이라서 그럴 수 있다는 가능성을 제시함. 특히, First-Order Approximation을 적용할 경우 약 33%의 학습 속도 향상도 있어서 유용함.

Figure 4. Omniglot과 MiniImagenet Dataset에 대한 N-way K-shot classification 결과 비교 표

 

Experimental Evaluation: Reinforcement Learning

  • 2D Navigation: Velocity가 매번 주어지는 Agent가 목표를 향해 나아가는 Task
  • Locomotion: 3D 시뮬레이션 환경에서 목표하는 Velocity를 달성하는 Task 및 Direction을 달성하는 Task
  • 2D, 3D 환경 모두 Pretrained 모델을 확실히 능가함

Figure 5. 2D Navigation Task에서 MAML과 다른 모델의 성능 비교

 

Model-Agnostic Meta-Learning

Abstract: We propose an algorithm for meta-learning that is model-agnostic, in the sense that it is compatible with any model trained with gradient descent and applicable to a variety of different learning problems, including classification, regression, an

sites.google.com