Policy Gradient1 [2025-1] 김학선 - Policy Gradient https://www.youtube.com/watch?v=t9wuRUFWkRQPolicy Gradient이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$여기서 $P_\theta(\tau)$를 조건부.. 2025. 1. 20. 이전 1 다음