policy-based1 [2025-1] 김학선 - Policy-based. https://www.youtube.com/watch?v=AHCt4Phgn9k&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=21혁펜하임의 "트이는" 강화 학습, 10-1 Policy-based앞선 영상에서의 DQN, DDQN, Dueling DQN과 같은 방식들은 Value-based 방식으로, $\epsilon$-greedy를 통해 어떤 상태(s)에서 $\epsilon$의 확률로 랜덤하게 행동하고 그 중에서의 최선의 Q 값을 찾는 방식이다.Policy-basedPolicy-baesd 방식은 주어진 상황에서 어떤 선택을 선택할지에 대한 정책을 학습하여 추후 정책을 매개변수화된 확률 분포로 나타낸다. Policy-based가 Value-based 방식의 차이점은 다음과.. 2025. 1. 14. 이전 1 다음