분류 전체보기265 [2025-1] 노하림 - MC vs TD https://www.youtube.com/watch?v=STcbD5VhP3Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=9 MC vs TDMC는 전체 에피소드를 완료한 후 Q value를 평균적으로 업데이트한다. 샘플링 바이어스가 없어 편향이 없는 추정치를 제공하지만 계산량이 느리다. TD는 현재 상태에서의 예측값을 이용하여 Q value를 업데이트한다. 샘플링 과정에서 바이어스가 발생할 수 있다. Bias$$MC : v_\pi (s_t) = E[G_t]$$$$TD : v_\pi (s_t) = E[r_{t+1} + \gamma v_\pi(s_{t+1})$$MC와 TD의 근간이 되는 수식을 보면 MC는 리턴의 평균을 향해 업데이트되어있다. 이유는 가치 함수의 정의가.. 2025. 1. 14. [2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12. [2025-1] 김은서 - Temporal difference (TD) & SARSA https://youtu.be/vfLrBPYwuFA?si=Gs3LH3C7i-NgzAGa TD (Temporal difference) 방법이란?MC (Monte Carlo) 방법은 전체 에피소드가 끝난 후에 최종 보상을 바탕으로 학습을 진행한다. 이와 달리 TD (Temporal difference) 방법은 에피소드가 끝날 때까지 기다리지 않고, 상태의 값을 점진적으로 업데이트한다.MC 방법은 다음 식과 같이 나타낼 수 있다.$$ Q(S_{t}, a_{t}) \approx \frac{1}{N}\sum_{i=1}^N(R_{t+1}^{(i)}+ \gamma Q(S_{t+1}^{(i)}, a_{t+1}^{(i)})) = \overline{Q}_{N} $$위의 식을 아래와 같이 정리 할 수 있는데, 이것이 TD .. 2025. 1. 12. n-step TD vs n-step Q-learning 기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다2-step td learning일때 식을 의미하게 된다.반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 위에 Q-.. 2025. 1. 12. 이전 1 ··· 31 32 33 34 35 36 37 ··· 67 다음