본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기147

[2025-1] 정지우 - Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581https://youtu.be/u1yYf1PCTPg?si=FfbKvYVRSnOcBJ4I deep learning을 reinforcement learning에 접목시키려는 시도는 많았다. 여기서는 dueling network를 제안하는데, 이는 두 개의 분리된 estimator로 이루어져 있다. 하나는 state value function이고 하나는 state-dependent action advantage function이다. 이 방법은 더 나은 policy evaluation을 보여준다. 그리고 이 논문은 Atari 2600 도메인에서 SOTA를 찍었다. 기존에 RL에 쓰이는 neural network는 convolutional network, .. 2025. 1. 22.
[2025-1] 김학선 - Policy Gradient https://www.youtube.com/watch?v=t9wuRUFWkRQPolicy Gradient이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$여기서 $P_\theta(\tau)$를 조건부.. 2025. 1. 20.
[2025-1] 노하림 - PER: Prioritized Experience Replay https://arxiv.org/abs/1511.05952 Prioritized Experience ReplayExperience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequarxiv.orgAbstract경험 재생(Experience Replay)은 기존에 재생 메모리에서 경험 데이터를 균등하게 샘플링한다. 해당 방.. 2025. 1. 19.
[2025-1] 계진혁 - Deep Reinforcement Learning with Double Q-learning https://www.youtube.com/watch?v=p6aT2eIdVno&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=16논문 다운로드 링크: https://arxiv.org/pdf/1509.06461.pdf ① DDQN: Double Deep Q-Network.Double DQN 논문에서 해결하고 싶은 것은 Overestimation(DQN의 한계)으로, 이는 “Max Q값을 타깃 샘플로 지정 후, 그 샘플로 업데이트 하는 방법”이 Overestimate되기 때문에(과대평가하기 때문에) 일어나는 문제이다.   ② DDQN Thm 1.   위 이론은 Q optimal 값이 Action(V*)에 대해 모두 같다는 가정 하에 진행된다. 따라서 위 공식은 Max Q .. 2025. 1. 19.