본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글349

[2025-2] 정인아 - PaCoST: Paired Confidence Significance Testing for BenchmarkContamination Detection in Large Language Models 논문 : https://arxiv.org/abs/2406.18326깃헙 : https://github.com/lleozhang/PaCoST학회 : EMNLP 2024 아이디어원본 인스턴스와 재구성된 인스턴스 간의 confidence를 비교해보자 방법벤치마크 contamination 유형 정의(1) 지시문 x와 답변 y 모두에 대해 다음 토큰 예측을 수행한다고 할 때, −logP(x,y)를 최소화(2) 답변 y에 대해서만 다음 토큰 예측을 수행한다고 할 때, −logP(y∣x)를 최소화 벤치마크 오염 탐지 방법이 충족해야 할 핵심 기준Training Data Access Free (TDA Free) - 학습 데이터 접근 불필요Contamination Type Free (CT Free) - 오염 유형 모두 .. 2025. 9. 6.
[2025-2] 최민서 - Proximal Policy Optimization Algorithms [논문링크] https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org 1. Introduction 최근에 강화학습과 인공신경망을 융합하려는 시도가 진행되고 있다. 여.. 2025. 9. 4.
[2025-2] 박지원 - Benchmark Inflation: Revealing LLM PerformanceGaps Using Retro-Holdouts 원문) https://openreview.net/forum?id=WdA5H9ARaa#discussion Benchmark Inflation: Revealing LLM Performance Gaps Using...Public benchmarks are compromised, as the training data for many Large Language Models (LLMs) is contaminated with test data, suggesting a performance gap between benchmark scores and actual...openreview.net Intro- LLM의 벤치마크 데이터셋에 대한 점수 인플레이션 문제에 대해, 공개 벤치마크 데이터셋이 train data에 오.. 2025. 9. 4.
[2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities 등장 배경기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.논문 목적사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함문제 상황누출률 낮음 → 탐지율 하락누출률과 재현율은 별개의 지표.. 2025. 8. 31.