Natural Language Processing64 [2025-1] 차승우 - Titans: Learning to Memorize at Test Time https://arxiv.org/abs/2501.00663 Titans: Learning to Memorize at Test TimeOver more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending toarxiv.org 0. Abstract 순환 모델은 데이터를 고정된 크기의 메모리(hidden state)로 압축하는 것을 .. 2025. 2. 17. [2025-1] 차승우 - Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling https://arxiv.org/abs/1412.3555 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence ModelingIn this paper we compare different types of recurrent units in recurrent neural networks (RNNs). Especially, we focus on more sophisticated units that implement a gating mechanism, such as a long short-term memory (LSTM) unit and a recently proposed gatedarxiv.org0. Abstract- tanh RNN과 비교하.. 2025. 2. 15. [2025-1] 임재열 - Hymba: A Hybrid-head Architecture for Small Language Models Hymba는 2024년 NVIDIA에서 제안한 모델입니다. [Hymba]https://arxiv.org/abs/2411.13676 Hymba: A Hybrid-head Architecture for Small Language ModelsWe propose Hymba, a family of small language models featuring a hybrid-head parallel architecture that integrates transformer attention mechanisms with state space models (SSMs) for enhanced efficiency. Attention heads provide high-resolution recall, whilearxiv.org*.. 2025. 2. 12. [2025-1] 김학선 - DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence IntroductionLLMs의 급속한 발전으로 인해 소프트웨어 개발 분야는 크게 변화했다. 그러나 이러한 발전에도 불구하고 LLMs의 주요 도전 과제는 오픈 소스 모델과 폐쇄형 소스 모델간의 성능 격차이다. 강력한 폐쇄형 소스 모델들은 외부의 접근이 제한되며, 독점적인 성격으로 인해 활용에 제약이 따른다. 이러한 도전 과제에 대응하기 위해 DeepSeek-Coder 시리즈를 제시했다.DeepSeek-Coder 시리즈Size: 1.3B ~ 33BVersion: Base, InstructPre-train data: Repository 수준에서의 학습 데이터를 구성(→ 교차 파일 이해 능력 향상)Pre-train processLoss: Next token predictionMethod: Fill-In-the.. 2025. 2. 12. 이전 1 2 3 4 5 6 7 ··· 16 다음