본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

n-step TD vs n-step Q-learning

by insight1361 2025. 1. 12.

기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.

여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다

2-step td learning일때 식을 의미하게 된다.

반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.

따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.

behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 

위에 Q-function 식에서 q로 나눠주고 곱해주는 importance sampling을 할시에 다음과 같이 나타나게 된다.

 

n-step이라고 하면 2-step과 마찬가지로 확장하면 된다.