본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Miscellaneous76

[2025-2] 이루가 - A review of Q-learning methods for Markov decision processes 논문 링크: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1877676&dswid=-1399 0. Abstract연구 목적상태-행동 문제(state-action problem)를 Markov Decision Process(MDP)로 모델링하고, Q-Learning과 Deep Q-Network(DQN)을 적용하여 최적 정책(optimal policy)을 찾는 방법을 탐구한다. 연구 방법Q-Learning과 DQN 알고리즘을 각각 단순한 문제와 복잡한 문제에 적용하여 성능을 비교하고 각 알고리즘의 장점과 한계를 분석한다. 주요 결과Q-Learning은 단순한 문제에서는 최적 정책을 성공적으로 찾았으나, 상태 공간이 사실상 무한한 복잡한 문제에서는 실패.. 2025. 9. 13.
[2025-2] 정유림 - Human-level control through deep reinforcement learning 논문 제목 : Human-level Control through Deep Reinforcement Learning (Nature, 2015)저널: Nature발표일: 2015년 2월 25일인용수: 22,000회 인용Human-level control through deep reinforcement learning (Nature, 2015) DQN 배경과거 RL은 표 기반/선형 근사와 수작업 특징에 의존해 작은 상태공간만 다루었고, 픽셀 입력에는 취약했음.신경망+RL은 부트스트래핑/분포 이동으로 학습이 자주 불안정·발산했으며, Atari도 주로 hand-crafted features + linear(SARSA/Q-learning) 조합을 사용함.DQN은 CNN으로 픽셀 표현을 직접 학습하고 Experien.. 2025. 9. 13.
[2025-2] 김지원 - Introduction to Reinforcement Learning 논문 정보: Ghasemi, M., & Ebrahimi, D. (2024). Introduction to reinforcement learning. arXiv preprint arXiv:2408.07712.논문 링크: https://arxiv.org/pdf/2408.07712?논문 인용수: 17회 (2025.09.12 기준)Introduction 강화 학습은 AI의 한 분야로 시간에 따른 누적 보상을 최대화하는 것을 목표로 환경과 상호작용함으로써 훈련된다.지도 학습&비지도 학습과 달리 RL은 직관적인 결정들을 내려야 하는 자율적인 에이전트들을 다루고 종종 데이터 없이 이들의 행동으로부터 학습하기도 한다.핵심 아이디어는 시행착오 탐색을 통해 시간을 지나 누적 보상을 최대화하기 위해 어떻게 세상이 작동하는 .. 2025. 9. 13.
[2025-2] 정유림 - LLM-based agent : DrBioRight 2.0 논문 출처 : Liu, W., Li, J., Tang, Y. et al. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis. Nat Commun 16, 2256 (2025). https://doi.org/10.1038/s41467-025-57430-4 Agent란?그냥 “사람 대리인”이 아니라, 목표를 스스로 이해하고, 계획을 세우고, 필요한 도구를 사용해 문제를 해결하는 소프트웨어 시스템LLM에서의 agentLLM 단독 → 단순히 질문에 답변하거나 텍스트 생성.LLM agent → LLM이 여러 외부 도구(tool)나 API, 데이터베이스, 실험 장비를 스스.. 2025. 8. 16.