본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing78

[2025-2] 김경훈 - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation (Arxiv 2025) 논문 : https://arxiv.org/pdf/2505.24263 ▲2025년 5월 30일에 공개된 arXiv에 게재된 논문임.(학회 X) MBZUAI 설명:더보기MBZUAI는 아랍에미리트 아부다비에 위치한 세계 최초의 석사 및 박사 과정 중심의 인공지능 전문 연구 대학입니다. 2019년에 설립되어, 2025년부터 학부 과정도 개시하였습니다📍 위치도시: 아부다비 (Abu Dhabi)지역: 마스다르 시티 (Masdar City)국가: 아랍에미리트 (United Arab Emirates) 1. Abstract (초록)이 연구는 LLM(대형 언어 모델)의 평가에서 데이터 누출 문제를 다룹니다.기존의 누출 감지 방법을 비교하고, 누출을 시뮬레이션하여 이를 탐지하는 새로운 방법을 제시합니다.특히, se.. 2025. 9. 13.
[2025-2] 백승우 - Intent of Data Contamination 2025- 2025. 9. 13.
[2025-2] 백승우 - Kimi K2: Open Agentic Intelligence 2025. 9. 10.
[2025-2] 김민정 - Are Large Language Models Memorizing Bug Benchmarks? 1. IntroductionLLM은 코드 생성, 버그 탐지, 자동 프로그램 수리(APR) 등 소프트웨어 엔지니어링 분야에서 중요한 역할을 함.이를 평가하기 위해 Defects4J, BugsInPy, SWEBench 같은 버그 벤치마크가 널리 사용됨.그러나 이 벤치마크들은 오래전부터 공개되어 있어, 학습 데이터에 포함되었을 가능성이 높음. → Data leakage 위험벤치마크 데이터가 이미 모델 학습에 포함되었다면, 모델의 성능이 실제 능력이 아니라 암기 효과로 보일 수 있음.LLM이 버그 벤치마크를 암기하고 있는가?2. Methodology데이터 수집: 주요 버그 벤치마크(Defects4J, BugsInPy, BugsCpp, GitBug-Java, SWEBench-Lite)와 2024년 GitHub 신.. 2025. 9. 6.