분류 전체보기406 [2026-1] 김지원 - SPICE: Self-Play In Corpus Environments 논문 제목: SPICE: Self-Play In Corpus Environments논문 링크: https://arxiv.org/abs/2510.24684 SPICE: Self-Play In Corpus Environments Improves ReasoningSelf-improving systems require environmental interaction for continuous adaptation. We introduce SPICE (Self-Play In Corpus Environments), a reinforcement learning framework where a single model acts in two roles: a Challenger that mines documents from a.. 2026. 3. 21. [2026-1] 김학선, 임준수 - BENCHMARKING AGENTS ON HARD, REALISTICTASKS IN COMMAND LINE INTERFACES https://arxiv.org/abs/2601.11868 Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesAI agents may soon become capable of autonomously completing valuable, long-horizon tasks in diverse domains. Current benchmarks either do not measure real-world tasks, or are not sufficiently difficult to meaningfully measure frontier models. To this end,arxiv.org Task Formula.. 2026. 3. 20. [2026-1] 정유림 - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference paper : https://arxiv.org/abs/2412.13663hugging face : https://huggingface.co/docs/transformers/main/en/model_doc/modernbert기존 BERT 모델의 한계를 뛰어넘는 ModernBERT를 소개합니다. 2조 개의 토큰으로 학습된 이 모델은 8192 토큰의 긴 시퀀스 길이에서도 뛰어난 성능을 발휘하며, 분류 및 검색 작업에서 최첨단 결과를 달성합니다. 또한, 가장 빠르고 메모리 효율적인 인코더로서 일반적인 GPU에서 효율적인 추론이 가능하도록 설계되었습니다.1. ModernBERT: 기존 BERT의 한계를 뛰어넘는 혁신적인 인코더 모델ModernBERT는 2조 개의 토큰으로 학습되어 8192 토큰의 긴 시퀀스 길이에.. 2026. 3. 20. [2026-1] 김효민 - AA-LCR (Artificial Analysis Long Context Reasoning) AA-LCR (Artificial Analysis Long Context Reasoning) ArtificialAnalysis/AA-LCR · Datasets at Hugging FaceWe’re on a journey to advance and democratize artificial intelligence through open source and open science.huggingface.co 오늘 다룰 벤치마크는 AA-LCR이라는 벤치마크로, 언어 모델이 매우 긴 문서를 여러개 읽고 정보를 추출하고, 추론하고, 종합적으로 사고하는 등의 Reasoning 능력을 측정하는 벤치마크이다. Artificial Analysis Intelligence Index v2.2에 포함되었다. 본 글에서는 벤치마.. 2026. 3. 20. 이전 1 2 3 4 5 ··· 102 다음