전체 글349 [2025-2] Min-K%++ INTRODUCTION대규모 언어모델(LLM)의 사전학습 코퍼스는 방대하고 대부분 비공개입니다. 이 상황에서 가장 민감하고도 실무적으로 까다로운 과제는 “지금 모델이 보고 있는 입력이 과거 사전학습 때 실제로 봤던 것인가?”를 가리는 일, 즉 사전학습 데이터 탐지입니다. 여기에 실패하면 저작권 분쟁(저작물의 무단 학습·출력), 개인정보 노출, 그리고 벤치마크 누수(평가 데이터 재학습) 같은 굵직한 리스크가 그대로 현실이 됩니다. 문제는, 기존 멤버십 추론(MIA)을 그대로 가져다 쓰기 어렵다는 데 있습니다. 대규모 사전학습은 보통 (a) 아주 적은 에폭으로, (b) 거대한 이질 코퍼스를, (c) 비공개 분포에서 수행합니다. 따라서 Loss 같은 단순 지표만으로는 훈련/비훈련을 깔끔히 가르기 힘듭니다. 또.. 2025. 8. 31. [2025-2] 한영웅 - Investigating Data Contamination for Pre-training Language Models (Arxiv 2024) 1. Introduction문제 배경LLM의 뛰어난 성능은 모델 크기와 데이터 규모 덕분이라고 여겨짐GPT-3, PaLM, LLaMA 등 주요 LLM 연구들정말로 크기와 데이터만이 성능의 원인일까?"under-explored" : 충분히 연구되지 않은 중대한 측면데이터 오염(data contamination): 사전 훈련 코퍼스에 평가 데이터가 섞여 들어가는 현상지금까지의 LLM 성능 평가가 근본적으로 신뢰할 수 없을 가능성대부분의 사전 훈련 코퍼스가 비공개기존 접근법의 문제평가 수준 분석 (Evaluation-level Analysis):이미 훈련된 모델에 대해 사후적으로 분석평가 데이터를 깨끗한(clean) 부분과 오염된(contamination) 부분으로 나누어 성능 비교한계: 실제 훈련 과정에서의.. 2025. 8. 23. [2025-2] 백승우 - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents Scalable Video-to-Dataset Generation for Cross-Platform Mobile AgentsRecent advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have sparked significant interest in developing GUI visual agents. We introduce MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube), a large-scale datasetarxiv.org 2025. 8. 20. [2025-2] 최민서 - 확산 모델의 수학 본 리뷰는 책 "확산 모델의 수학(오카노하라 다이스케)"의 리뷰이며 리뷰의 대부분의 내용은 책의 내용을 바탕으로 제작되었습니다. 보다 자세한 내용에 대해 알고 싶으시면 책을 직접 구입 후 읽어보시길 권장합니다. Chapter 1 생성 모델 에너지 기반 모델과 분배함수 책에서 메인으로 다루는 확산 모델은 생성 모델의 한 종류이다. 생성 모델이란 목표 도메인의 데이터를 생성하는 모델을 말한다. 책의 전반에서 원본 데이터 $\left\{ \mathbf{x}^{(1)}, \dots, \mathbf{x}^{(N)} \right\}$는 $p(\mathbf{x})$라는 미지의 확률분포로부터 서로 독립적으로 추출된 것이라고 하자. 또한 생성 모델은 $q_\theta (\mathbf{x})$라는 확률분포를 가진다. 확.. 2025. 8. 16. 이전 1 2 3 4 5 6 7 8 ··· 88 다음