본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

[2025-1] 김은서 - Actor-Critic

by kes305 2025. 1. 26.

https://youtu.be/DnwRhx5EI38?si=z-krgX0xE_5I9Zc0

 

1. Policy Gradient

policy gradient는 강화학습에서 정책(policy)을 직접 학습하는 방법이다. 여기서 정책은 πθ(a|s)로 표현되며, 상태 s에서 행동 a를 선택할 확률 분포를 나타낸다.

policy gradient의 목표는 정책을 업데이트하여 expected return을 최대화 하는 것이다. 목표 함수는 다음과 같다.

J(θ)=Eπθ[R]

핵심은 이 J(θ)를 최대화하기 위한 기울기를 계산하는 것이다. 따라서 policy gradient 정리는 다음과 같다.

θJ(θ)τt=0θlnPθ(at|st)GtPθ(τ)dτ

하지만 policy gradient는 하나의 에피소드가 끝나야 한 번의 업데이트가 이루어진다. 에피소드 단위로 정책을 업데이트하게 되면, 보상 Gt에 노이즈가 많이 포함될 수 있어서 높은 분산을 갖는 한계를 가지고 있다.

 

2. Actor-Critic 등장 이유

Actor-Critic은 이러한 policy gradient의 한계를 해결하기 위해 나온 방법이다.

기존 policy gradient 식은 다음과 같다.

θJ(θ)τt=0θlnPθ(at|st)GtPθ(τ)dτ

이 식에서 GtQ로 바꾸기위해 전개 과정을 거친다. 그렇게되면 다음과 같은 식을 표현할 수 있다.

=t=0st,atθlnPθ(at|st)Q(st,at)Pθ(st,at)dst,at

이렇게 되면 θlnPθ(at|st)Q(st,at)를 샘플로 한다고 했을 때, Gt까지 얻지 않아도 되니 끝까지 가지 않아도 샘플을 구할 수 있다. 이에 따라 분산이 높아지는 문제를 완화할 수 있게 된다.

여기서 Q(st,at)는 다음과 같이 나타낼 수 있다.

Qw=(Rt+γQw(st+1,at+1Qw(st,at))2

 

3. Actor-Critic 알고리즘

Actor

  • Pθ(at|st)를 업데이트
  • action을 선택하는 역할
  • θθ+αθlnPθ(at|st)Qw(st,at)

Critic

  • Qw를 업데이트
  • Actor가 선택한 행동이 얼마나 좋은지 평가하는 역할
  • wwβw(Rt+γQw(st+1,aa+1)Qw(st,at))2

(이때, Rt+γQw(st+1,aa+1)를 상수 취급한다.)

 

Actor-Critic의 특징은 다음과 같다.

  1. Bias: Critic이 근사 모델을 사용해 TD 방법으로 V(s)(value function)을 학습하므로 V(s)의 추정이 참 값에서 벗어날 수 있게 된다. 이에 따라 Bias가 발생하게 된다.
  2. Low Variance: Critic이 TD 방법으로 현재 상태와 보상만으로 학습하므로 Variance가 낮다

 

결론

Actor-Critic 알고리즘은 Policy Gradient 방법의 단점을 해결하기 위해 고안되었다. Policy Gradient는 높은 Variance로 인해 학습이 불안정한 문제를 가지고 있었는데, Actor-Critic은 (Bias가 발생하지만) 낮은 Variance를 통해 안정적이고 효율적인 학습이 가능해 진다.