전체 글383 [2026-1] 강민정, 황징아이 - Let’s Verify Step by Step 1. 데이터셋의 구성 의의배경최근 대규모 언어 모델은 복잡한 다단계 추론(Multi-step reasoning)을 수행하는 능력이 크게 향상되었다. 그러나 최신 모델에서도 논리적 오류나 불확실한 상황에서 사실을 조작하는 환각(Hallucination) 문제가 빈번하게 발생한다. 특히 기존 연구에서 다룬 쉬운 문제(GSM8K)와 달리 복잡한 문제일수록 이러한 오류를 잡아내는 것이 중요해진다. 기존의 한계결과 감독(Outcome Supervision, ORM) 방식은 최종 결과만 보고 피드백을 제공한다. 이는 모델이 잘못된 추론 과정을 거쳤음에도 우연히 정답을 맞힌 경우(False Positive)를 판별하기 어렵고, 오답인 경우에도 정확히 어느 단계에서 틀렸는지 알려주지 못하는 신용 할당(Credit As.. 2026. 2. 18. [2026-1] 임준수, 박승원 - GPQA (Diamond): A Graduate-Level Google-Proof Q&A Benchmark 1. 데이터셋 구성 의의AI 모델의 성능이 증가함에 따라, 인간이 진실을 쉽게 검증할 수 없는 문제에 대한 인공지능의 대답을 평가하기 위한 벤치마크가 필요해짐. 이 문제를 scalable oversight라고 부름. 이런 문제는 고도로 학습된 비전문가들도 스스로 풀기 어려운 문제여야 제대로 된 평가가 가능함.RLHF(Reinforcment learning from human feedback)과 같은 현존하는 oversight 방법들은 human annotators의 능력에 따라 LLM의 출력의 정답 여부가 다르게 평가될 수 있음.저자들은 human annotators가 출력의 정답 여부를 제대로 판단할 수 없는 상황에서의 scalable oversight 방법론에 대해서 연구하기 위해서는, 특정 전문가들.. 2026. 2. 18. [2026-2] 염제원, 김학선 - AA-Omniscience: Evaluating Cross-Domain KnowledgeReliability in Large Language Models AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language ModelsExisting language model evaluations primarily measure general capabilities, yet reliable use of these models across a range of domains demands factual accuracy and recognition of knowledge gaps. We introduce AA-Omniscience, a benchmark designed to measurearxiv.org ArtificialAnalysis/AA-Omniscience-Public · Data.. 2026. 2. 16. [2026-1] 정재훈 - AnEmpirical Evaluation of Geeric Convolutional and Recurrent Networksfor Sequence Modeling 더보기https://arxiv.org/abs/1803.01271 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence ModelingFor most deep learning practitioners, sequence modeling is synonymous with recurrent networks. Yet recent results indicate that convolutional architectures can outperform recurrent networks on tasks such as audio synthesis and machine translation. Given aarxiv.org 0.BE.. 2026. 2. 7. 이전 1 2 3 4 ··· 96 다음