분류 전체보기334 [2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities 등장 배경기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.논문 목적사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함문제 상황누출률 낮음 → 탐지율 하락누출률과 재현율은 별개의 지표.. 2025. 8. 31. Min-K%++ 논문 리뷰 (ICLR 2025) INTRODUCTION대규모 언어모델(LLM)의 사전학습 코퍼스는 방대하고 대부분 비공개입니다. 이 상황에서 가장 민감하고도 실무적으로 까다로운 과제는 “지금 모델이 보고 있는 입력이 과거 사전학습 때 실제로 봤던 것인가?”를 가리는 일, 즉 사전학습 데이터 탐지입니다. 여기에 실패하면 저작권 분쟁(저작물의 무단 학습·출력), 개인정보 노출, 그리고 벤치마크 누수(평가 데이터 재학습) 같은 굵직한 리스크가 그대로 현실이 됩니다. 문제는, 기존 멤버십 추론(MIA)을 그대로 가져다 쓰기 어렵다는 데 있습니다. 대규모 사전학습은 보통 (a) 아주 적은 에폭으로, (b) 거대한 이질 코퍼스를, (c) 비공개 분포에서 수행합니다. 따라서 Loss 같은 단순 지표만으로는 훈련/비훈련을 깔끔히 가르기 힘듭니다. 또.. 2025. 8. 31. [2025-2] 한영웅 - Investigating Data Contamination for Pre-training Language Models (Arxiv 2024) 1. Introduction문제 배경LLM의 뛰어난 성능은 모델 크기와 데이터 규모 덕분이라고 여겨짐GPT-3, PaLM, LLaMA 등 주요 LLM 연구들정말로 크기와 데이터만이 성능의 원인일까?"under-explored" : 충분히 연구되지 않은 중대한 측면데이터 오염(data contamination): 사전 훈련 코퍼스에 평가 데이터가 섞여 들어가는 현상지금까지의 LLM 성능 평가가 근본적으로 신뢰할 수 없을 가능성대부분의 사전 훈련 코퍼스가 비공개기존 접근법의 문제평가 수준 분석 (Evaluation-level Analysis):이미 훈련된 모델에 대해 사후적으로 분석평가 데이터를 깨끗한(clean) 부분과 오염된(contamination) 부분으로 나누어 성능 비교한계: 실제 훈련 과정에서의.. 2025. 8. 23. [2025-2] 백승우 - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents Scalable Video-to-Dataset Generation for Cross-Platform Mobile AgentsRecent advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have sparked significant interest in developing GUI visual agents. We introduce MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube), a large-scale datasetarxiv.org 2025. 8. 20. 이전 1 2 3 4 ··· 84 다음