본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글391

[2026-2] 전진우, 김지은 - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark 2026. 2. 19. https://arxiv.org/abs/2406.01574 MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding BenchmarkIn the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as moarxiv.org https://huggingf.. 2026. 2. 19.
[2026-1] 강민정, 황징아이 - Let’s Verify Step by Step 1. 데이터셋의 구성 의의배경최근 대규모 언어 모델은 복잡한 다단계 추론(Multi-step reasoning)을 수행하는 능력이 크게 향상되었다. 그러나 최신 모델에서도 논리적 오류나 불확실한 상황에서 사실을 조작하는 환각(Hallucination) 문제가 빈번하게 발생한다. 특히 기존 연구에서 다룬 쉬운 문제(GSM8K)와 달리 복잡한 문제일수록 이러한 오류를 잡아내는 것이 중요해진다. 기존의 한계결과 감독(Outcome Supervision, ORM) 방식은 최종 결과만 보고 피드백을 제공한다. 이는 모델이 잘못된 추론 과정을 거쳤음에도 우연히 정답을 맞힌 경우(False Positive)를 판별하기 어렵고, 오답인 경우에도 정확히 어느 단계에서 틀렸는지 알려주지 못하는 신용 할당(Credit As.. 2026. 2. 18.
[2026-2] 염제원, 김학선 - AA-Omniscience: Evaluating Cross-Domain KnowledgeReliability in Large Language Models AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language ModelsExisting language model evaluations primarily measure general capabilities, yet reliable use of these models across a range of domains demands factual accuracy and recognition of knowledge gaps. We introduce AA-Omniscience, a benchmark designed to measurearxiv.org ArtificialAnalysis/AA-Omniscience-Public · Data.. 2026. 2. 16.
[2026-1] 정재훈 - AnEmpirical Evaluation of Geeric Convolutional and Recurrent Networksfor Sequence Modeling 더보기https://arxiv.org/abs/1803.01271 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence ModelingFor most deep learning practitioners, sequence modeling is synonymous with recurrent networks. Yet recent results indicate that convolutional architectures can outperform recurrent networks on tasks such as audio synthesis and machine translation. Given aarxiv.org 0.BE.. 2026. 2. 7.