본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기344

[2025-2] 김지원 - Introduction to Reinforcement Learning 논문 정보: Ghasemi, M., & Ebrahimi, D. (2024). Introduction to reinforcement learning. arXiv preprint arXiv:2408.07712.논문 링크: https://arxiv.org/pdf/2408.07712?논문 인용수: 17회 (2025.09.12 기준)Introduction 강화 학습은 AI의 한 분야로 시간에 따른 누적 보상을 최대화하는 것을 목표로 환경과 상호작용함으로써 훈련된다.지도 학습&비지도 학습과 달리 RL은 직관적인 결정들을 내려야 하는 자율적인 에이전트들을 다루고 종종 데이터 없이 이들의 행동으로부터 학습하기도 한다.핵심 아이디어는 시행착오 탐색을 통해 시간을 지나 누적 보상을 최대화하기 위해 어떻게 세상이 작동하는 .. 2025. 9. 13.
[2025-2] 백승우 - Kimi K2: Open Agentic Intelligence 2025. 9. 10.
[2025-2] 김민정 - Are Large Language Models Memorizing Bug Benchmarks? 1. IntroductionLLM은 코드 생성, 버그 탐지, 자동 프로그램 수리(APR) 등 소프트웨어 엔지니어링 분야에서 중요한 역할을 함.이를 평가하기 위해 Defects4J, BugsInPy, SWEBench 같은 버그 벤치마크가 널리 사용됨.그러나 이 벤치마크들은 오래전부터 공개되어 있어, 학습 데이터에 포함되었을 가능성이 높음. → Data leakage 위험벤치마크 데이터가 이미 모델 학습에 포함되었다면, 모델의 성능이 실제 능력이 아니라 암기 효과로 보일 수 있음.LLM이 버그 벤치마크를 암기하고 있는가?2. Methodology데이터 수집: 주요 버그 벤치마크(Defects4J, BugsInPy, BugsCpp, GitBug-Java, SWEBench-Lite)와 2024년 GitHub 신.. 2025. 9. 6.
[2025-2] 정인아 - PaCoST: Paired Confidence Significance Testing for BenchmarkContamination Detection in Large Language Models 논문 : https://arxiv.org/abs/2406.18326깃헙 : https://github.com/lleozhang/PaCoST학회 : EMNLP 2024 아이디어원본 인스턴스와 재구성된 인스턴스 간의 confidence를 비교해보자 방법벤치마크 contamination 유형 정의(1) 지시문 x와 답변 y 모두에 대해 다음 토큰 예측을 수행한다고 할 때, −logP(x,y)를 최소화(2) 답변 y에 대해서만 다음 토큰 예측을 수행한다고 할 때, −logP(y∣x)를 최소화 벤치마크 오염 탐지 방법이 충족해야 할 핵심 기준Training Data Access Free (TDA Free) - 학습 데이터 접근 불필요Contamination Type Free (CT Free) - 오염 유형 모두 .. 2025. 9. 6.