https://www.youtube.com/watch?v=STcbD5VhP3Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=9
MC vs TD
MC는 전체 에피소드를 완료한 후 Q value를 평균적으로 업데이트한다. 샘플링 바이어스가 없어 편향이 없는 추정치를 제공하지만 계산량이 느리다.
TD는 현재 상태에서의 예측값을 이용하여 Q value를 업데이트한다. 샘플링 과정에서 바이어스가 발생할 수 있다.
Bias
$$MC : v_\pi (s_t) = E[G_t]$$
$$TD : v_\pi (s_t) = E[r_{t+1} + \gamma v_\pi(s_{t+1})$$
MC와 TD의 근간이 되는 수식을 보면 MC는 리턴의 평균을 향해 업데이트되어있다. 이유는 가치 함수의 정의가 애초에 리턴의 기댓값이기 때문이다. 따라서 평균은 실제 가치에 수렴하게 된다. 즉, 편향되어 있지 않은 안전한 방법론이다.
TD의 경우는 한 스텝이 지난 다음 $r_{t+1} + \gamma V(s_{t+1})$ (TD 타깃) 을 계산하고 이를 현재 추축치 사이 차이를 줄여주는 방향으로 업데이트한다. 이때 TD 타깃은 지속적으로 업데이트해도 실제 가치에 다가가리라는 보장이 없기에 편향되었다.
Variance
MC가 리턴을 얻기까지 진행하는 에피소드는 수많은 상태 전이와 정책 $\pi$으로 이루어져있다. 따라서 평균으로부터 각각의 값들이 멀리 퍼져있을 수 있다는 뜻이며 이는 분산 혹은 변동성이 크다는 것을 의미한다.
반면 TD는 한 샘플만 보면 바로 업데이트가 가능하기 때문에 분산이 작다. MC가 수십 개에서 수백 개의 확률적 결과로 이루어진다면 TD는 값들이 평균 근처레 몰려있다.