NLP110 [2026-1] 김효민 - AA-LCR (Artificial Analysis Long Context Reasoning) AA-LCR (Artificial Analysis Long Context Reasoning) ArtificialAnalysis/AA-LCR · Datasets at Hugging FaceWe’re on a journey to advance and democratize artificial intelligence through open source and open science.huggingface.co 오늘 다룰 벤치마크는 AA-LCR이라는 벤치마크로, 언어 모델이 매우 긴 문서를 여러개 읽고 정보를 추출하고, 추론하고, 종합적으로 사고하는 등의 Reasoning 능력을 측정하는 벤치마크이다. Artificial Analysis Intelligence Index v2.2에 포함되었다. 본 글에서는 벤치마.. 2026. 3. 20. [2026-1] 김다정, 황징아이 - TaU2-Benchmark 1. 데이터셋의 구성 의의$\tau^2$-Benchmark는 대화형 에이전트와 시뮬레이션된 사용자 사이에서 이루어지는 multi-turn interaction을 체계적으로 연구하기 위해 제안된 밴치마크이다. 기존 Single-Control 벤치마크의 한계기존의 대화형 AI 에이전트 벤치마크는 대부분 single-control 환경을 가정한다. 에이전트만이 도구(tool)를 사용하여 환경과 상호작용하고, 사용자는 단순히 정보나 선호도를 제공하는 역할에 그친다. 하지만 이러한 설정은 실제 상황의 복잡성을 충분히 반영하지 못한다는 한계가 있다. 사용자와 에이전트의 협업 필요성 (Dual-Control의 도입 배경)실생활에서는 에이전트와 사용자가 함께 문제를 해결하는 협업 상황이 자주 발생한다.예를 들어 Te.. 2026. 3. 18. [2026-1] 백승우 - OpenClaw-RL: Train Any Agent Simply by Talking OpenClaw-RL: Train Any Agent Simply by TalkingEvery agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a fraarxiv.org 2026. 3. 17. [2026-1] 김효민 - GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints [Paper]GQA : https://arxiv.org/abs/2305.13245 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsMulti-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference. However, MQA can lead to quality degradation, and moreover it may not be desirable to train a separate model just for faster inference. We (1) prarxiv.org MQ.. 2026. 2. 28. 이전 1 2 3 4 5 ··· 28 다음