Miscellaneous85 [2025-1] 김학선 - Policy Gradient https://www.youtube.com/watch?v=t9wuRUFWkRQPolicy Gradient이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$여기서 $P_\theta(\tau)$를 조건부.. 2025. 1. 20. [2025-1] 노하림 - PER: Prioritized Experience Replay https://arxiv.org/abs/1511.05952 Prioritized Experience ReplayExperience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequarxiv.orgAbstract경험 재생(Experience Replay)은 기존에 재생 메모리에서 경험 데이터를 균등하게 샘플링한다. 해당 방.. 2025. 1. 19. [2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12. n-step TD vs n-step Q-learning 기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다2-step td learning일때 식을 의미하게 된다.반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 위에 Q-.. 2025. 1. 12. 이전 1 ··· 11 12 13 14 15 16 17 ··· 22 다음