https://www.youtube.com/watch?v=t9wuRUFWkRQ
Policy Gradient
이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.
∇θJθ=∇θ∫τG0⋅Pθ(τ)dτ
위 식에서 ∇θ는 τ에 영향을 받지 않으므로 적분식 안으로 넣고, lnf(x)=f′(x)f(x)을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.
∫τG0⋅(∇θlnPθ(τ))⋅Pθ(τ)dτ
여기서 Pθ(τ)를 조건부 확률로 나타낼 경우 다음과 같이 나타낼 수 있다.
Pθ(τ)=P(s0)⋅Π∞t=0Pθ(at|st)⋅P(st+1|st,at)
이때, Pθ(τ)는 로그가 취해져 있으므로 Π가 합으로 변하게 되고, ∇θ로 인해 θ가 없는 항들은 전부 사라지게 되므로 식이 다음과 같이 정리할 수 있다.
∫τG0∞∑t=0P(τ)∇θlnP(at|st)dτ
P(τ)를 빼고 G0⋅∑∞t=0P(τ)∇θlnP(at|st)에 대해 나타내면 다음과 같이 나타낼 수 있다.
(R0+γR1+⋯)(∇θlnP(a0|s0)+∇θlnP(a1|s1)+⋯)
이때, 식에서 자연스럽게 지워지는 부분들이 있는데 그중 ∫τR0⋅∇θlnP(a1|s1)을 한번 확인해 보자.
τ에서 a1을 뺀 경로를 τ−a1로 나타내서 식을 정리하게 되면 위 정적분 부분이 0이 된다.
이를 사용하여 policy gradient를 정리하면
∇θJθ=∫τ∞∑t=0(∇θlnP(at|st)×(∞∑k=tγtγk−tRk))
로 나타낼 수 있는데 이때 ∑∞k=tγk−tRk=Rt+γRt+1+⋯=Gt 이므로 다음과 같이 나타낼 수 있다.
∇θJθ=∫τ∞∑t=0(∇θlnPθ(at|st)⋅γtGt)⋅Pθ(τ)dτ
이때, 감쇄율 γ가 0과 1 사이의 값을 가져서 시나리오가 진행되게 되면 미래의 영향이 없어져서 γt를 없애고 근사로 바꾸면 최종적으로 다음과 같이 나타낼 수 있다.
∇θJθ≅∫τ∞∑t=0(∇θlnPθ(at|st)⋅Gt)⋅Pθ(τ)dτ
결론
- 정책의 개선은 행동 확률의 로그(lnPθ(at|st))를 보상(Gt)과 함께 가중치로 삼아 학습된다.
- 감쇄율 γ의 영향으로 미래의 영향을 무시하게 되어서 γ를 제거하고 근사적으로 표현한 최종 식은 Monte Carlo 샘플링에 의존하여 계산된다.