본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 김학선 - Policy Gradient

by khseon7 2025. 1. 20.

https://www.youtube.com/watch?v=t9wuRUFWkRQ

Policy Gradient

이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.

$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$

위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.

$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$

여기서 $P_\theta(\tau)$를 조건부 확률로 나타낼 경우 다음과 같이 나타낼 수 있다.

$$P_\theta(\tau)=P(s_0)\cdot\Pi_{t=0}^\infty P_\theta(a_t|s_t)\cdot P(s_{t+1}|s_t,a_t)$$

이때, $P_\theta(\tau)$는 로그가 취해져 있으므로 $\Pi$가 합으로 변하게 되고, $\nabla_\theta$로 인해 $\theta$가 없는 항들은 전부 사라지게 되므로 식이 다음과 같이 정리할 수 있다.

$$\int_\tau G_0\sum_{t=0}^\infty P(\tau)\nabla_\theta\ln P(a_t|s_t)d\tau$$

$P(\tau)$를 빼고 $G_0\cdot\sum_{t=0}^\infty P(\tau)\nabla_\theta\ln P(a_t|s_t)$에 대해 나타내면 다음과 같이 나타낼 수 있다.

$$(R_0+\gamma R_1+\cdots)(\nabla_\theta\ln P(a_0|s_0)+\nabla_\theta\ln P(a_1|s_1)+\cdots)$$

이때, 식에서 자연스럽게 지워지는 부분들이 있는데 그중 $\int_\tau R_0\cdot\nabla_\theta\ln P(a_1|s_1)$을 한번 확인해 보자.

$\tau$에서 $a_1$을 뺀 경로를 $\tau_{-a_1}$로 나타내서 식을 정리하게 되면 위 정적분 부분이 0이 된다.

이를 사용하여 policy gradient를 정리하면

$$\nabla_\theta J_\theta=\int_\tau\sum_{t=0}^\infty(\nabla_\theta\ln P(a_t|s_t)\times(\sum_{k=t}^\infty\gamma^t\gamma^{k-t}R_k))$$

로 나타낼 수 있는데 이때 $\sum_{k=t}^\infty\gamma^{k-t}R_k=R_t+\gamma R_{t+1}+\cdots=G_t$ 이므로 다음과 같이 나타낼 수 있다.

$$\nabla_\theta J_\theta=\int_\tau\sum_{t=0}^\infty(\nabla_\theta\ln P_\theta(a_t|s_t)\cdot\gamma^tG_t)\cdot P_\theta(\tau)d\tau$$

이때, 감쇄율 $\gamma$가 0과 1 사이의 값을 가져서 시나리오가 진행되게 되면 미래의 영향이 없어져서 $\gamma^t$를 없애고 근사로 바꾸면 최종적으로 다음과 같이 나타낼 수 있다.

$$\nabla_\theta J_\theta\cong\int_\tau\sum_{t=0}^\infty(\nabla_\theta\ln P_\theta(a_t|s_t)\cdot G_t)\cdot P_\theta(\tau)d\tau$$


결론

  1. 정책의 개선은 행동 확률의 로그($\ln P_\theta(a_t|s_t)$)를 보상($G_t$)과 함께 가중치로 삼아 학습된다.
  2. 감쇄율 $\gamma$의 영향으로 미래의 영향을 무시하게 되어서 $\gamma$를 제거하고 근사적으로 표현한 최종 식은 Monte Carlo 샘플링에 의존하여 계산된다.