본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기271

[2025-1] 노하림 - 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 강화학습의 핵심 목표> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다. E[f(x)]$$E[f(x)] = \int f(x) p(x) \, dx$$\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.Expected Return을 표현하는 두 가지 방법State value function $(V(s))$현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 R.. 2025. 1. 7.
[2025-1] 김학선 - Bellman Equation https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5Bellman Equation벨만 방정식은 특정 상태에서 최선의 선택을 하기 위해 현재 가치와 미래 가치를 연결하여 정의하는 방정식이다. 벨만 방정식을 증명하기 전 몇가지 알아야 할 식들은 다음과 같다.상태 가치 함수:$V(s_t)=\int_{a_t:a_\infty}G_t\cdot P(a_t,s_{t+1},a_{t+1},\cdots|s_t)d_{a_t:a_\infty}$행동 가치 함수:$Q(s_t,a_t)=\int_{s_{t+1}:a_\infty}G_t\cdot P(s_{t+1},a_{t+1},\cdots|s_t,a_t)d_{s_{t+1}:a_.. 2025. 1. 5.
[2025-1] 김은서 - Markov Decision Process (MDP) https://youtu.be/DbbcaspZATg?si=-bI6dIMlAVMDUVBV  1. Markov Decision Process (MDP) 개념MDP는 강화 학습에서 환경을 수학적으로 형식화 하기 위한 주요 틀(framework)이다.MDP에서 Agent와 $S_{t}\in S$ (Environment)는 이산적인 시간 관계 t = 0, 1, 2, 3, … 에서 서로 상호작용한다. 각 시간 단계에서 Agent는 환경의 상태(State)를 나타내는 일부 정보를 받고, 이를 기반으로 $A_{t}\in A(t)$ (Action)을 선택한다.그로부터 다음 시간 단계에서 Agent는 자신이 행동의 결과로 수치적인 $R_{t+1}\in \mathbb{R}$ (Reward)을 받고, 새로운 $S_{t+1}$.. 2025. 1. 5.
[2025-1] 전진우 - Monte carlo method 2-5강에서 이어서 진행됩니다.https://www.youtube.com/watch?v=bCifW0SENGs&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=7&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84%7CAI%26%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B0%95%EC%9D%982-5강에 따르면 optimal policy는 다음과 같은 방식으로 구할 수 있다.앞서 2-5강에서는 가치함수를 구하는 방법은 다음과 같이 구할 수 있다.하지만 우리는 probability 전이확률을 모르는 경우가 너무나도 많다(예를 들어서 체스, 바둑 같은 게임 환경에서 모든 상태의 전이 확률을 계산하기는 불가능하다). 이럴 경우에 큰.. 2025. 1. 4.