본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기281

[2025-1] 노하림 - PER: Prioritized Experience Replay https://arxiv.org/abs/1511.05952 Prioritized Experience ReplayExperience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequarxiv.orgAbstract경험 재생(Experience Replay)은 기존에 재생 메모리에서 경험 데이터를 균등하게 샘플링한다. 해당 방.. 2025. 1. 19.
[2025-1] 계진혁 - Deep Reinforcement Learning with Double Q-learning https://www.youtube.com/watch?v=p6aT2eIdVno&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=16논문 다운로드 링크: https://arxiv.org/pdf/1509.06461.pdf ① DDQN: Double Deep Q-Network.Double DQN 논문에서 해결하고 싶은 것은 Overestimation(DQN의 한계)으로, 이는 “Max Q값을 타깃 샘플로 지정 후, 그 샘플로 업데이트 하는 방법”이 Overestimate되기 때문에(과대평가하기 때문에) 일어나는 문제이다.   ② DDQN Thm 1.   위 이론은 Q optimal 값이 Action(V*)에 대해 모두 같다는 가정 하에 진행된다. 따라서 위 공식은 Max Q .. 2025. 1. 19.
[2025-1] 김은서 - Playing Atari with Deep Reinforcement Learning (DQN 논문) https://youtu.be/36tvs0H2mww?si=YUfvzTu4OhOxNG_W 논문 링크: dqn.pdfQ-LearningQ-Learning 알고리즘은 DQN(Deep Q Network)의 기반이다.$$ updates; Q(S_{t}, a_{t}) ← Q(S_{t}, a_{t}) + \alpha(R_{t} + \gamma max_{a_{t+1}} Q(S_{t+1}, a_{t+1})-Q(S_{t}, a_{t})) $$위의 식에서현재 상태: $S_{t}$현재 행동: $a_{t}$다음 상태: $S_{t+1}$대상 행동: $a_{t+1}$따라서 Q-Learning에서, 현재의 Q값은 현재 Q값과 다음 State에서 가능한 모든 행동 중 가장 큰 Q 값(Q’)을 이용하여 업데이트된다. Q-Learning.. 2025. 1. 19.
[2025-1] 주서영 - Towards Robust Vision Transformer Towards Robust Vision Transformer Towards Robust Vision TransformerRecent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision tasks. However, existing ViTs focus on the standard accuracy and comarxiv.orgCVPR 20222025.01.18 기준 인용 횟수: 226회Introduction기존의 Vision Transform.. 2025. 1. 18.