강화 학습2 [2025-1] 김학선 - On-policy vs Off-policy https://www.youtube.com/watch?v=wVhH_3Td_R4On-Policy vs Off-PolicySARSA와 Q-Learning은 TD(Temporal Difference) 방식의 알고리즘으로, On-policy와 Off-policy라는 두 가지 접근 방식에 따라 구분된다. 이 두 개념의 차이는 Behavior Policy와 Target Policy의 관계에 있다.On-PolicyOn-policy는 Behavior Policy와 Target Policy가 동일한 정책이다. 즉, 행동을 선택할 때와 TD-target을 계산할 때 모두 같은 정책을 따른다.SARSA는 On-policy의 대표적인 예로, $\epsilon$-greedy와 같은 정책을 사용하여 행동을 선택하고, 그에 맞춰 .. 2025. 1. 8. [2025-1] 김학선 - Bellman Equation https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5Bellman Equation벨만 방정식은 특정 상태에서 최선의 선택을 하기 위해 현재 가치와 미래 가치를 연결하여 정의하는 방정식이다. 벨만 방정식을 증명하기 전 몇가지 알아야 할 식들은 다음과 같다.상태 가치 함수:$V(s_t)=\int_{a_t:a_\infty}G_t\cdot P(a_t,s_{t+1},a_{t+1},\cdots|s_t)d_{a_t:a_\infty}$행동 가치 함수:$Q(s_t,a_t)=\int_{s_{t+1}:a_\infty}G_t\cdot P(s_{t+1},a_{t+1},\cdots|s_t,a_t)d_{s_{t+1}:a_.. 2025. 1. 5. 이전 1 다음