분류 전체보기344 [2025-2] 김경훈 - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation (Arxiv 2025) 논문 : https://arxiv.org/pdf/2505.24263 ▲2025년 5월 30일에 공개된 arXiv에 게재된 논문임.(학회 X) MBZUAI 설명:더보기MBZUAI는 아랍에미리트 아부다비에 위치한 세계 최초의 석사 및 박사 과정 중심의 인공지능 전문 연구 대학입니다. 2019년에 설립되어, 2025년부터 학부 과정도 개시하였습니다📍 위치도시: 아부다비 (Abu Dhabi)지역: 마스다르 시티 (Masdar City)국가: 아랍에미리트 (United Arab Emirates) 1. Abstract (초록)이 연구는 LLM(대형 언어 모델)의 평가에서 데이터 누출 문제를 다룹니다.기존의 누출 감지 방법을 비교하고, 누출을 시뮬레이션하여 이를 탐지하는 새로운 방법을 제시합니다.특히, se.. 2025. 9. 13. [2025-2] 백승우 - Intent of Data Contamination 2025- 2025. 9. 13. [2025-2] 이루가 - A review of Q-learning methods for Markov decision processes 논문 링크: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1877676&dswid=-1399 0. Abstract연구 목적상태-행동 문제(state-action problem)를 Markov Decision Process(MDP)로 모델링하고, Q-Learning과 Deep Q-Network(DQN)을 적용하여 최적 정책(optimal policy)을 찾는 방법을 탐구한다. 연구 방법Q-Learning과 DQN 알고리즘을 각각 단순한 문제와 복잡한 문제에 적용하여 성능을 비교하고 각 알고리즘의 장점과 한계를 분석한다. 주요 결과Q-Learning은 단순한 문제에서는 최적 정책을 성공적으로 찾았으나, 상태 공간이 사실상 무한한 복잡한 문제에서는 실패.. 2025. 9. 13. [2025-2] 정유림 - Human-level control through deep reinforcement learning 논문 제목 : Human-level Control through Deep Reinforcement Learning (Nature, 2015)저널: Nature발표일: 2015년 2월 25일인용수: 22,000회 인용Human-level control through deep reinforcement learning (Nature, 2015) DQN 배경과거 RL은 표 기반/선형 근사와 수작업 특징에 의존해 작은 상태공간만 다루었고, 픽셀 입력에는 취약했음.신경망+RL은 부트스트래핑/분포 이동으로 학습이 자주 불안정·발산했으며, Atari도 주로 hand-crafted features + linear(SARSA/Q-learning) 조합을 사용함.DQN은 CNN으로 픽셀 표현을 직접 학습하고 Experien.. 2025. 9. 13. 이전 1 2 3 4 ··· 86 다음