[2025-1] 노하림 - 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy
https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4
강화학습의 핵심 목표
> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다.
E[f(x)]
$$E[f(x)] = \int f(x) p(x) \, dx$$
\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.
Expected Return을 표현하는 두 가지 방법
State value function $(V(s))$
현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 Return이다. 상태 자체에 대한 가치 평가를 한다.
$$V(s_t) = \int_{a_t}^{a_\infty} G_t \cdot p(a_t, s_{t+1}, a_{t+1}, \dots | s_t) \, da_t$$
- \( G_t \): 현재 시점 \( t \)부터 시작해서 앞으로 받게 될 감가율(Discount Factor) \( \gamma \)이 적용된 보상의 합 (즉, Return)
- \( p(\cdot | s_t) \): 현재 상태 \( s_t \)에서 특정 행동과 그로 인해 이어질 상태 및 행동들의 확률 분포
\( V(s_t) \)는 현재 상태 \( s_t \)에서 가능한 모든 행동 \( a_t \)들에 대해 Return \( G_t \)를 기대값으로 계산한 것이다. 즉, 앞으로의 가능한 경로와 보상들을 확률적으로 모두 고려한 평균적인 가치를 평가한다.
Action value function (\( Q(s_t, a_t) \))
현재 상태에서 특정 행동을 했을 때 기대되는 리턴의 평균값이다. 이는 현재 상태와 행동이 주어졌을 때의 Return을 평가한다.
$$Q(s_t, a_t) = \int_{s_{t+1}}^{s_\infty} G_t \cdot P(s_{t+1}, a_{t+1}, s_{t+2}, \dots | s_t, a_t) \, ds_{t+1}$$
- \( G_t \): 감가율이 적용된 Return
- \( P(\cdot | s_t, a_t) \): 현재 상태 \( s_t \)와 행동 \( a_t \)에서 다음 상태 \( s_{t+1} \), 이후의 행동과 상태들의 확률 분포
\( Q(s_t, a_t) \)는 현재 상태 \( s_t \)에서 특정 행동 \( a_t \)를 취했을 때 발생할 수 있는 모든 상태와 행동들에 대해 Return \( G_t \)를 기대값으로 계산한 것이다.
State Value vs. Action Value
1. State Value (\( V(s_t) \))는 상태 자체의 가치를 평가한다. 현재 상태에서 최적의 행동을 취했을 때 앞으로 받을 보상을 기대값으로 계산한다.
2. Action Value (\( Q(s_t, a_t) \))는 상태와 행동의 조합에 대한 가치를 평가한다. 특정 상태에서 특정 행동을 취했을 때 앞으로 받을 보상의 기대값을 계산한다.
Optimal policy
Optimal Policy는 상태에서 최적의 행동을 선택하는 정책을 의미한다.
$$policy = \pi(a|s)$$
최적 정책에 따르면 상태 가치 함수는 해당 상태에서 가능한 모든 행동의 Action Value Function 중 최댓값과 같다.
- $V(s_t)$는 현재 상태에서 출발했을 때 앞으로 받을 보상의 기대값
- $Q(s_t, a_t)$는 현재 상태와 행동이 주어졌을 때 앞으로 받을 보상의 기대값
- State Value와 Action Value는 모두 Return $G_t$를 최대화하는 방향으로 작동하며, 이를 통해 최적 정책을 찾음