https://youtu.be/DbbcaspZATg?si=-bI6dIMlAVMDUVBV
1. Markov Decision Process (MDP) 개념
MDP는 강화 학습에서 환경을 수학적으로 형식화 하기 위한 주요 틀(framework)이다.
MDP에서 Agent와 $S_{t}\in S$ (Environment)는 이산적인 시간 관계 t = 0, 1, 2, 3, … 에서 서로 상호작용한다. 각 시간 단계에서 Agent는 환경의 상태(State)를 나타내는 일부 정보를 받고, 이를 기반으로 $A_{t}\in A(t)$ (Action)을 선택한다.
그로부터 다음 시간 단계에서 Agent는 자신이 행동의 결과로 수치적인 $R_{t+1}\in \mathbb{R}$ (Reward)을 받고, 새로운 $S_{t+1}$(State)에 놓이게 된다. 이는 다음과 같은 순서를 형성한다.
$$ S_{0}, A_{0}, R_{1}, S_{1}, A_{1}, R_{2}, S_{2}… $$
2. MDP의 주요 성질
2-1 확률적 성질
- 현재 상태 $s_{t}$에서 행동 $a_{t}$를 선택하면, 다음 상태 $s_{t+1}$는 확률적으로 전이된다.
$$ P(s_{t+1} = s'|s_{t} = s , a_{t} = a) $$
예: $P(s' = A|s = X , a = a_{1}) = 0.7$, $P(s' = B|s = X , a = a_{1}) = 0.3$
→ 행동 $a_{1}$을 취했을 때, 다음 상태가 A일 확률은 70%, B일 확률은 30%이다.
2-2 마르코프 성질 (Markov Property)
- MDP는 현재 상태 $s_{t}$가 다음 상태 $s_{t+1}$를 결정하는 데 필요한 모든 정보를 포함한다.
- 즉, 과거의 상태 및 행동 정보는 현재 상태에 포함되어 무시될 수 있다.
$$ P(s_{t+1}|s_{t}, a_{t}) = P(s_{t+1}|s_{t},a_{t},s_{t-1}, a_{t-1},...) $$
3. Policy 란?
Policy은 Agent가 state에서 어떤 action을 할 지에 대한 확률 분포이다.
$$ \pi(a|s) = P_{r}(a_{t} = a|s_{t} = s) $$
예: 상태 $s = A$에서 행동 $a_{1}$을 선택할 확률이 70%, $a_{2}$를 선택할 확률이 30%라면,
$\pi(a_{1}|A) = 0.7$, $\pi(a_{2}|A) = 0.3$ 이다.
4. Return 이란?
Return $G_{t}$는 특정 시점 t에서 시작해 미래에 받을 보상의 누적 합을 의미한다.
$$ G_{t} = R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... $$
- $R_{t+1} + R_{t+2} + R_{t+3} + ...$ : 각 시간 단계에서 에이전트가 받는 즉각적인 보상
- $\gamma \in (0,1]$: Discount Factor로, 미래 보상의 중요도를 조절
5. 강화 학습의 목적
강화 학습의 목적은 Agent가 가능한 한 높은 Return을 받을 수 있도록 학습하는 것이다. Return은 주어진 Policy를 따랐을 때, 각 상태에서 시작해 목표까지 도달하여 얻은 보상의 총합이다. 따라서 강화 학습에서는 최적의 Policy를 찾는 것이 중요하다.
정리
- MDP는 강화 학습에서 환경을 수학적으로 형식화 하기 위한 주요 틀(framework)이다.
- 확률적 성질과 마르코프 성질은 MDP의 주요 특성이다.
- Policy는 Agent의 행동을 결정하는 확률 분포를 나타낸다.
- Return은 특정 시점부터 미래의 보상들을 할인하여 누적한 값이며, 강화 학습의 목표는 이 값을 최대화하는 Policy를 찾는 것이다.