전체 글387 [2026-1] 김정운 & 김효민 - CritPT (Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark) [CritPt] Tech Report & Example Challenge & Dataset Link CritPt - Physics Benchmark critpt.com Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research BenchmarkWhile large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in front.. 2026. 2. 19. [2026-1] Humanity’s Last Exam - 박서형, 김다정 1. Introduction대형 언어모델(LLM)의 성능이 빠르게 올라가면서, 기존의 벤치마크들은 점점 측정 도구로서 의미를 잃고 있다. 예를 들어, MMLU 같은 대표 벤치마크에서 최신 모델들이 90% 이상의 높은 정확도를 달성하면서, 모델이 더 좋아져도 점수는 그 개선을 충분히 반영하지 못한다. 이러한 문제를 본 논문에서는 "benchmark saturation"라고 명명한다. 이 문제의식에서 출발해 저자들은 Humanity’s Last Exam (HLE) 이라는 새로운 벤치마크를 제안한다. 이 벤치마크는 다음과 같은 조건을 만족한다.광범위한 학문 커버리지(수학/자연과학/인문사회 등)폐쇄형(close-ended): 정답이 명확히 존재하고 자동 채점이 가능인터넷 검색으로 빠르게 해결되지 않음(retr.. 2026. 2. 19. [2026-1] 임준수, 박승원 - GPQA (Diamond): A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022 GPQA: A Graduate-Level Google-Proof Q&A BenchmarkWe present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresarxiv.org1. 데이터셋 구성 의의AI 모델의 성능이 증가함에 따라, 인간이 진실을 쉽게 검증할 수 없.. 2026. 2. 19. [2026-2] 전진우, 김지은 - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark 2026. 2. 19. https://arxiv.org/abs/2406.01574 MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding BenchmarkIn the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as moarxiv.orghttps://huggingfa.. 2026. 2. 19. 이전 1 2 3 4 ··· 97 다음