본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Miscellaneous58

[2025-1] 김지원 - Efficiently Modeling Long Sequences with Structured State Spaces 논문 링크 Efficiently Modeling Long Sequences with Structured State Spaces특징 : ICRL 2022 Outstanding Paper, 인용 수 1578회 (2025-01-25 기준)코드: https://github.com/state-spaces/s4 GitHub - state-spaces/s4: Structured state space sequence modelsStructured state space sequence models. Contribute to state-spaces/s4 development by creating an account on GitHub.github.com 1. Preliminaries해당 논문을 이해하기 위해 저자인 Albe.. 2025. 1. 25.
[2025-1] 계진혁 - Policy-based objectives https://www.youtube.com/watch?v=S2dXWVzzK2Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=22 Markov Decision Process.강화학습의 목표는 action의 반복을 통해 목표(Maximize Expected Return)에 다가가는 것이다. 즉, 기댓값이 최대가 되도록 하는 것이다. 이는 에이전트가 환경과 상호작용하면서 적절한 행동을 선택해 누적 보상을 최대화하려는 것으로 이해할 수 있다. * 누적 보상 = 𝐺0 = 𝑅0 + 𝛾𝑅1 + 𝛾^2𝑅2 + …   Value-based의 목표.Value-based는 상태(state) 또는 상태-행동(state-action) 쌍에 대한 값을 학습하는 데 초점을 두는 방법.. 2025. 1. 24.
[2025-1] 정지우 - Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581https://youtu.be/u1yYf1PCTPg?si=FfbKvYVRSnOcBJ4I deep learning을 reinforcement learning에 접목시키려는 시도는 많았다. 여기서는 dueling network를 제안하는데, 이는 두 개의 분리된 estimator로 이루어져 있다. 하나는 state value function이고 하나는 state-dependent action advantage function이다. 이 방법은 더 나은 policy evaluation을 보여준다. 그리고 이 논문은 Atari 2600 도메인에서 SOTA를 찍었다. 기존에 RL에 쓰이는 neural network는 convolutional network, .. 2025. 1. 22.
[2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM  Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12.