본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기346

[2025-2] 김민정 - Are Large Language Models Memorizing Bug Benchmarks? 1. IntroductionLLM은 코드 생성, 버그 탐지, 자동 프로그램 수리(APR) 등 소프트웨어 엔지니어링 분야에서 중요한 역할을 함.이를 평가하기 위해 Defects4J, BugsInPy, SWEBench 같은 버그 벤치마크가 널리 사용됨.그러나 이 벤치마크들은 오래전부터 공개되어 있어, 학습 데이터에 포함되었을 가능성이 높음. → Data leakage 위험벤치마크 데이터가 이미 모델 학습에 포함되었다면, 모델의 성능이 실제 능력이 아니라 암기 효과로 보일 수 있음.LLM이 버그 벤치마크를 암기하고 있는가?2. Methodology데이터 수집: 주요 버그 벤치마크(Defects4J, BugsInPy, BugsCpp, GitBug-Java, SWEBench-Lite)와 2024년 GitHub 신.. 2025. 9. 6.
[2025-2] 정인아 - PaCoST: Paired Confidence Significance Testing for BenchmarkContamination Detection in Large Language Models 논문 : https://arxiv.org/abs/2406.18326깃헙 : https://github.com/lleozhang/PaCoST학회 : EMNLP 2024 아이디어원본 인스턴스와 재구성된 인스턴스 간의 confidence를 비교해보자 방법벤치마크 contamination 유형 정의(1) 지시문 x와 답변 y 모두에 대해 다음 토큰 예측을 수행한다고 할 때, −logP(x,y)를 최소화(2) 답변 y에 대해서만 다음 토큰 예측을 수행한다고 할 때, −logP(y∣x)를 최소화 벤치마크 오염 탐지 방법이 충족해야 할 핵심 기준Training Data Access Free (TDA Free) - 학습 데이터 접근 불필요Contamination Type Free (CT Free) - 오염 유형 모두 .. 2025. 9. 6.
[2025-2] 최민서 - Proximal Policy Optimization Algorithms [논문링크] https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org 1. Introduction 최근에 강화학습과 인공신경망을 융합하려는 시도가 진행되고 있다. 여.. 2025. 9. 4.
[2025-2] 박지원 - Benchmark Inflation: Revealing LLM PerformanceGaps Using Retro-Holdouts 원문) https://openreview.net/forum?id=WdA5H9ARaa#discussion Benchmark Inflation: Revealing LLM Performance Gaps Using...Public benchmarks are compromised, as the training data for many Large Language Models (LLMs) is contaminated with test data, suggesting a performance gap between benchmark scores and actual...openreview.net Intro- LLM의 벤치마크 데이터셋에 대한 점수 인플레이션 문제에 대해, 공개 벤치마크 데이터셋이 train data에 오.. 2025. 9. 4.