전체 글401 [2026-1] 김학선, 임준수 - BENCHMARKING AGENTS ON HARD, REALISTICTASKS IN COMMAND LINE INTERFACES https://arxiv.org/abs/2601.11868 Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesAI agents may soon become capable of autonomously completing valuable, long-horizon tasks in diverse domains. Current benchmarks either do not measure real-world tasks, or are not sufficiently difficult to meaningfully measure frontier models. To this end,arxiv.org Task Formula.. 2026. 3. 20. [2026-1] 정유림 - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference paper : https://arxiv.org/abs/2412.13663hugging face : https://huggingface.co/docs/transformers/main/en/model_doc/modernbert기존 BERT 모델의 한계를 뛰어넘는 ModernBERT를 소개합니다. 2조 개의 토큰으로 학습된 이 모델은 8192 토큰의 긴 시퀀스 길이에서도 뛰어난 성능을 발휘하며, 분류 및 검색 작업에서 최첨단 결과를 달성합니다. 또한, 가장 빠르고 메모리 효율적인 인코더로서 일반적인 GPU에서 효율적인 추론이 가능하도록 설계되었습니다.1. ModernBERT: 기존 BERT의 한계를 뛰어넘는 혁신적인 인코더 모델ModernBERT는 2조 개의 토큰으로 학습되어 8192 토큰의 긴 시퀀스 길이에.. 2026. 3. 20. [2026-1] 김효민 AA-LCR (Artificial Analysis Long Context Reasoning) AA-LCR (Artificial Analysis Long Context Reasoning) ArtificialAnalysis/AA-LCR · Datasets at Hugging FaceWe’re on a journey to advance and democratize artificial intelligence through open source and open science.huggingface.co 오늘 다룰 벤치마크는 AA-LCR이라는 벤치마크로, 언어 모델이 매우 긴 문서를 여러개 읽고 정보를 추출하고, 추론하고, 종합적으로 사고하는 등의 Reasoning 능력을 측정하는 벤치마크이다. Artificial Analysis Intelligence Index v2.2에 포함되었다. 본 글에서는 벤치마.. 2026. 3. 20. [2026-3] 전진우 - IFBench 핵심 문장LLM이 겉으로는 instruction following을 잘하는 것처럼 보여도, 실제로는 익숙한 제약 몇 개만 외워서 푸는 경우가 많다. 따라서 새로운 제약에도 잘 따르는지 평가할 필요가 있으며, 이를 위해 IFBENCH와 RLVR 기반 학습이 제안된다.1. Introduction최근의 대형 언어모델들은 사용자의 지시를 잘 따르는 것처럼 보인다. 그러나 자세히 보면 이러한 능력은 실제 이해에 기반하기보다는, 특정 패턴에 대한 학습 결과일 가능성이 크다.대표적인 instruction following 벤치마크인 IFEval은 25개의 constraint template으로 구성되어 있다. 최신 모델들은 이 벤치마크에서 80% 이상의 성능을 기록하며 빠르게 포화되었다.문제는 여기서 발생한다.이 높.. 2026. 3. 20. 이전 1 2 3 4 ··· 101 다음