-
-
책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
[2025-2] 김민정 - Are Large Language Models Memorizing Bug Benchmarks?
1. IntroductionLLM은 코드 생성, 버그 탐지, 자동 프로그램 수리(APR) 등 소프트웨어 엔지니어링 분야에서 중요한 역할을 함.이를 평가하기 위해 Defects4J, BugsInPy, SWEBench 같은 버그 벤치마크가 널리 사용됨.그러나 이 벤치마크들은 오래전부터 공개되어 있어, 학습 데이터에 포함되었을 가능성이 높음. → Data leakage 위험벤치마크 데이터가 이미 모델 학습에 포함되었다면, 모델의 성능이 실제 능력이 아니라 암기 효과로 보일 수 있음.LLM이 버그 벤치마크를 암기하고 있는가?2. Methodology데이터 수집: 주요 버그 벤치마크(Defects4J, BugsInPy, BugsCpp, GitBug-Java, SWEBench-Lite)와 2024년 GitHub 신..
2025. 9. 6.