Miscellaneous76 [2025-1] 노하림 - A2C A2C 알고리즘A2C는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q함수의 구조가 단순해지며 액션에 대한 정보가.. 2025. 1. 26. [2025-1] 김은서 - Actor-Critic https://youtu.be/DnwRhx5EI38?si=z-krgX0xE_5I9Zc0 1. Policy Gradientpolicy gradient는 강화학습에서 정책(policy)을 직접 학습하는 방법이다. 여기서 정책은 $\pi_{θ}(a|s)$로 표현되며, 상태 s에서 행동 a를 선택할 확률 분포를 나타낸다.policy gradient의 목표는 정책을 업데이트하여 expected return을 최대화 하는 것이다. 목표 함수는 다음과 같다.$$ J(θ)=E_{π_{θ}}[R] $$핵심은 이 $J(θ)$를 최대화하기 위한 기울기를 계산하는 것이다. 따라서 policy gradient 정리는 다음과 같다.$$ ∇_{θ}J(θ)\cong \int_{\tau}^{}\sum_{t=0}^\infty∇_{θ}l.. 2025. 1. 26. [2025-1] 김지원 - Efficiently Modeling Long Sequences with Structured State Spaces 논문 링크 Efficiently Modeling Long Sequences with Structured State Spaces특징 : ICRL 2022 Outstanding Paper, 인용 수 1578회 (2025-01-25 기준)코드: https://github.com/state-spaces/s4 GitHub - state-spaces/s4: Structured state space sequence modelsStructured state space sequence models. Contribute to state-spaces/s4 development by creating an account on GitHub.github.com 1. Preliminaries해당 논문을 이해하기 위해 저자인 Albe.. 2025. 1. 25. [2025-1] 계진혁 - Policy-based objectives https://www.youtube.com/watch?v=S2dXWVzzK2Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=22 Markov Decision Process.강화학습의 목표는 action의 반복을 통해 목표(Maximize Expected Return)에 다가가는 것이다. 즉, 기댓값이 최대가 되도록 하는 것이다. 이는 에이전트가 환경과 상호작용하면서 적절한 행동을 선택해 누적 보상을 최대화하려는 것으로 이해할 수 있다. * 누적 보상 = 𝐺0 = 𝑅0 + 𝛾𝑅1 + 𝛾^2𝑅2 + … Value-based의 목표.Value-based는 상태(state) 또는 상태-행동(state-action) 쌍에 대한 값을 학습하는 데 초점을 두는 방법.. 2025. 1. 24. 이전 1 ··· 8 9 10 11 12 13 14 ··· 19 다음