Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 김학선 - Policy Gradient

by khseon7 2025. 1. 20.

https://www.youtube.com/watch?v=t9wuRUFWkRQ

Policy Gradient

이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.

θJθ=θτG0Pθ(τ)dτ

위 식에서 θτ에 영향을 받지 않으므로 적분식 안으로 넣고, lnf(x)=f(x)f(x)을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.

τG0(θlnPθ(τ))Pθ(τ)dτ

여기서 Pθ(τ)를 조건부 확률로 나타낼 경우 다음과 같이 나타낼 수 있다.

Pθ(τ)=P(s0)Πt=0Pθ(at|st)P(st+1|st,at)

이때, Pθ(τ)는 로그가 취해져 있으므로 Π가 합으로 변하게 되고, θ로 인해 θ가 없는 항들은 전부 사라지게 되므로 식이 다음과 같이 정리할 수 있다.

τG0t=0P(τ)θlnP(at|st)dτ

P(τ)를 빼고 G0t=0P(τ)θlnP(at|st)에 대해 나타내면 다음과 같이 나타낼 수 있다.

(R0+γR1+)(θlnP(a0|s0)+θlnP(a1|s1)+)

이때, 식에서 자연스럽게 지워지는 부분들이 있는데 그중 τR0θlnP(a1|s1)을 한번 확인해 보자.

τ에서 a1을 뺀 경로를 τa1로 나타내서 식을 정리하게 되면 위 정적분 부분이 0이 된다.

이를 사용하여 policy gradient를 정리하면

θJθ=τt=0(θlnP(at|st)×(k=tγtγktRk))

로 나타낼 수 있는데 이때 k=tγktRk=Rt+γRt+1+=Gt 이므로 다음과 같이 나타낼 수 있다.

θJθ=τt=0(θlnPθ(at|st)γtGt)Pθ(τ)dτ

이때, 감쇄율 γ가 0과 1 사이의 값을 가져서 시나리오가 진행되게 되면 미래의 영향이 없어져서 γt를 없애고 근사로 바꾸면 최종적으로 다음과 같이 나타낼 수 있다.

θJθτt=0(θlnPθ(at|st)Gt)Pθ(τ)dτ


결론

  1. 정책의 개선은 행동 확률의 로그(lnPθ(at|st))를 보상(Gt)과 함께 가중치로 삼아 학습된다.
  2. 감쇄율 γ의 영향으로 미래의 영향을 무시하게 되어서 γ를 제거하고 근사적으로 표현한 최종 식은 Monte Carlo 샘플링에 의존하여 계산된다.