본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기302

[2025-1] 김학선 - Policy-based. https://www.youtube.com/watch?v=AHCt4Phgn9k&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=21혁펜하임의 "트이는" 강화 학습, 10-1 Policy-based앞선 영상에서의 DQN, DDQN, Dueling DQN과 같은 방식들은 Value-based 방식으로, $\epsilon$-greedy를 통해 어떤 상태(s)에서 $\epsilon$의 확률로 랜덤하게 행동하고 그 중에서의 최선의 Q 값을 찾는 방식이다.Policy-basedPolicy-baesd 방식은 주어진 상황에서 어떤 선택을 선택할지에 대한 정책을 학습하여 추후 정책을 매개변수화된 확률 분포로 나타낸다. Policy-based가 Value-based 방식의 차이점은 다음과.. 2025. 1. 14.
[2025-1] 노하림 - MC vs TD https://www.youtube.com/watch?v=STcbD5VhP3Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=9 MC vs TDMC는 전체 에피소드를 완료한 후 Q value를 평균적으로 업데이트한다. 샘플링 바이어스가 없어 편향이 없는 추정치를 제공하지만 계산량이 느리다. TD는 현재 상태에서의 예측값을 이용하여 Q value를 업데이트한다. 샘플링 과정에서 바이어스가 발생할 수 있다. Bias$$MC : v_\pi (s_t) = E[G_t]$$$$TD : v_\pi (s_t) = E[r_{t+1} + \gamma v_\pi(s_{t+1})$$MC와 TD의 근간이 되는 수식을 보면 MC는 리턴의 평균을 향해 업데이트되어있다. 이유는 가치 함수의 정의가.. 2025. 1. 14.
[2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM  Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12.
[2025-1] 김은서 - Temporal difference (TD) & SARSA https://youtu.be/vfLrBPYwuFA?si=Gs3LH3C7i-NgzAGa TD (Temporal difference) 방법이란?MC (Monte Carlo) 방법은 전체 에피소드가 끝난 후에 최종 보상을 바탕으로 학습을 진행한다. 이와 달리 TD (Temporal difference) 방법은 에피소드가 끝날 때까지 기다리지 않고, 상태의 값을 점진적으로 업데이트한다.MC 방법은 다음 식과 같이 나타낼 수 있다.$$ Q(S_{t}, a_{t}) \approx \frac{1}{N}\sum_{i=1}^N(R_{t+1}^{(i)}+ \gamma Q(S_{t+1}^{(i)}, a_{t+1}^{(i)})) = \overline{Q}_{N} $$위의 식을 아래와 같이 정리 할 수 있는데, 이것이 TD .. 2025. 1. 12.