본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글344

[2025-2] 최민서 - Proximal Policy Optimization Algorithms [논문링크] https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org 1. Introduction 최근에 강화학습과 인공신경망을 융합하려는 시도가 진행되고 있다. 여.. 2025. 9. 4.
[2025-2] 박지원 - Benchmark Inflation: Revealing LLM PerformanceGaps Using Retro-Holdouts 원문) https://openreview.net/forum?id=WdA5H9ARaa#discussion Benchmark Inflation: Revealing LLM Performance Gaps Using...Public benchmarks are compromised, as the training data for many Large Language Models (LLMs) is contaminated with test data, suggesting a performance gap between benchmark scores and actual...openreview.net Intro- LLM의 벤치마크 데이터셋에 대한 점수 인플레이션 문제에 대해, 공개 벤치마크 데이터셋이 train data에 오.. 2025. 9. 4.
[2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities 등장 배경기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.논문 목적사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함문제 상황누출률 낮음 → 탐지율 하락누출률과 재현율은 별개의 지표.. 2025. 8. 31.
[2025-2] Min-K%++ INTRODUCTION대규모 언어모델(LLM)의 사전학습 코퍼스는 방대하고 대부분 비공개입니다. 이 상황에서 가장 민감하고도 실무적으로 까다로운 과제는 “지금 모델이 보고 있는 입력이 과거 사전학습 때 실제로 봤던 것인가?”를 가리는 일, 즉 사전학습 데이터 탐지입니다. 여기에 실패하면 저작권 분쟁(저작물의 무단 학습·출력), 개인정보 노출, 그리고 벤치마크 누수(평가 데이터 재학습) 같은 굵직한 리스크가 그대로 현실이 됩니다. 문제는, 기존 멤버십 추론(MIA)을 그대로 가져다 쓰기 어렵다는 데 있습니다. 대규모 사전학습은 보통 (a) 아주 적은 에폭으로, (b) 거대한 이질 코퍼스를, (c) 비공개 분포에서 수행합니다. 따라서 Loss 같은 단순 지표만으로는 훈련/비훈련을 깔끔히 가르기 힘듭니다. 또.. 2025. 8. 31.