카테고리 없음

[2025-1] 노하림 - 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy

리미61 2025. 1. 7. 09:27

https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4

 

강화학습의 핵심 목표

> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다.

 

E[f(x)]

$$E[f(x)] = \int f(x) p(x) \, dx$$

\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.

Expected Return을 표현하는 두 가지 방법

State value function $(V(s))$

현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 Return이다. 상태 자체에 대한 가치 평가를 한다. 

$$V(s_t) = \int_{a_t}^{a_\infty} G_t \cdot p(a_t, s_{t+1}, a_{t+1}, \dots | s_t) \, da_t$$

  • \( G_t \): 현재 시점 \( t \)부터 시작해서 앞으로 받게 될 감가율(Discount Factor) \( \gamma \)이 적용된 보상의 합 (즉, Return)
  • \( p(\cdot | s_t) \): 현재 상태 \( s_t \)에서 특정 행동과 그로 인해 이어질 상태 및 행동들의 확률 분포

\( V(s_t) \)는 현재 상태 \( s_t \)에서 가능한 모든 행동 \( a_t \)들에 대해 Return \( G_t \)를 기대값으로 계산한 것이다. 즉, 앞으로의 가능한 경로와 보상들을 확률적으로 모두 고려한 평균적인 가치를 평가한다.

 

Action value function (\( Q(s_t, a_t) \))

현재 상태에서 특정 행동을 했을 때 기대되는 리턴의 평균값이다. 이는 현재 상태와 행동이 주어졌을 때의 Return을 평가한다. 

 

$$Q(s_t, a_t) = \int_{s_{t+1}}^{s_\infty} G_t \cdot P(s_{t+1}, a_{t+1}, s_{t+2}, \dots | s_t, a_t) \, ds_{t+1}$$

 

 

  • \( G_t \): 감가율이 적용된 Return
  • \( P(\cdot | s_t, a_t) \): 현재 상태 \( s_t \)와 행동 \( a_t \)에서 다음 상태 \( s_{t+1} \), 이후의 행동과 상태들의 확률 분포

\( Q(s_t, a_t) \)는 현재 상태 \( s_t \)에서 특정 행동 \( a_t \)를 취했을 때 발생할 수 있는 모든 상태와 행동들에 대해 Return \( G_t \)를 기대값으로 계산한 것이다.

 

State Value vs. Action Value

1. State Value (\( V(s_t) \))는 상태 자체의 가치를 평가한다. 현재 상태에서 최적의 행동을 취했을 때 앞으로 받을 보상을 기대값으로 계산한다.

 

2. Action Value (\( Q(s_t, a_t) \))는 상태와 행동의 조합에 대한 가치를 평가한다. 특정 상태에서 특정 행동을 취했을 때 앞으로 받을 보상의 기대값을 계산한다.

Optimal policy

Optimal Policy는 상태에서 최적의 행동을 선택하는 정책을 의미한다. 

$$policy = \pi(a|s)$$

최적 정책에 따르면 상태 가치 함수는 해당 상태에서 가능한 모든 행동의 Action Value Function 중 최댓값과 같다. 

 


 

  1. $V(s_t)$ 현재 상태에서 출발했을 때 앞으로 받을 보상의 기대값
  2. $Q(s_t, a_t)$ 현재 상태와 행동이 주어졌을 때 앞으로 받을 보상의 기대값
  3. State Value와 Action Value는 모두 Return $G_t$를 최대화하는 방향으로 작동하며, 이를 통해 최적 정책을 찾음