전체 글349 [2025-2] 박제우 - Playing Atari with Deep Reinforcement Learning 1. Introduction이미지, 음성 등 고차원의 감각 데이터를 제어하는 것은 강화학습의 오랜 과제이다.기존 딥러닝 모델을 강화학습에 적용하기에는 한계가 있었다우선 이러한 딥러닝 방식은 라벨링 된 데이터가 필요한데, 강화학습은 스칼라값으로 된 리워드가 필요하다.피쳐간의 독립, 고정된 데이터 분포 등 딥러닝의 기본적인 전제 역시 강화학습과는 맞지 않는 부분이 많다.본 연구는 따라서 CNN방식과 Experience Replay Mechanism을 통해 이러한 한계를 극복한다.experience replay mechanism을 활용한다. 이는 과거의 전이 행렬을 무작위로 샘플링 하여 다양한 과거 행동에 걸쳐 학습 분포를 부드럽게 한다.신경망은 Q-learning 알고리즘을 사용하고 가중치 갱신에는 SGD .. 2025. 8. 15. [2025-2] 백승우 -Theory of Mind ReferenceMachine Theory of MindNeil C. Rabinowitz et al. (2018)https://arxiv.org/abs/1802.07740Theory of Mind May Have Spontaneously Emerged in Large Language ModelsMichal Kosinski (2023)https://arxiv.org/abs/2302.02083Theory of Mind for Multi-Agent Collaboration via Large Language ModelsHuao Li, Yu Quan Chong, Simon Stepputtis et al. (2024)https://arxiv.org/abs/2310.10701Theory of Mind in Large.. 2025. 8. 7. [2025-2] 백승우 - UI-TARS: Pioneering Automated GUI Interaction with Native Agents UI-TARS: Pioneering Automated GUI Interaction with Native AgentsThis paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercialarxiv.org 2025. 7. 30. [2025-2] 백승우 - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs ReTool: Reinforcement Learning for Strategic Tool Use in LLMsWhile reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-arxiv.org 2025. 7. 29. 이전 1 ··· 4 5 6 7 8 9 10 ··· 88 다음