NLP110 [2026-1] 장인영 - Attention is All You Need https://arxiv.org/pdf/1706.037621. Introduction 1. 순환 모델의 한계 기존의 시퀀스 모델링에서는 RNN, LSTM, GRU와 같은 순환 신경망이 널리 사용되어 왔다.이러한 모델은 입력 시퀀스의 각 위치에 따라 계산을 나누어 수행하며,각 위치를 계산 시간의 단계와 정렬하여 이전 은닉 상태와 현재 입력을 기반으로 새로운 은닉 상태를 생성한다.이러한 구조는 본질적으로 순차적이기 때문에, 하나의 학습 예제 내에서 병렬 처리가 불가능하다.이 문제는 시퀀스 길이가 길어질수록 더욱 중요해지며, 메모리 제약으로 인해 여러 예제를 동시에 처리하는 데에도 한계를 발생시킨다.2. Attention의 등장과 한계Attention 메커니즘은 입력 또는 출력 시퀀스 내의 거리와 관계없이 의.. 2026. 3. 21. [2026-1] 이루가 - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents 논문 링크: https://arxiv.org/abs/2105.03887 Lawformer: A Pre-trained Language Model for Chinese Legal Long DocumentsLegal artificial intelligence (LegalAI) aims to benefit legal systems with the technology of artificial intelligence, especially natural language processing (NLP). Recently, inspired by the success of pre-trained language models (PLMs) in the generic domaiarxiv.org ABSTRACTLawformer는 기.. 2026. 3. 21. [2026-1] 김지원 - SPICE: Self-Play In Corpus Environments 논문 제목: SPICE: Self-Play In Corpus Environments논문 링크: https://arxiv.org/abs/2510.24684 SPICE: Self-Play In Corpus Environments Improves ReasoningSelf-improving systems require environmental interaction for continuous adaptation. We introduce SPICE (Self-Play In Corpus Environments), a reinforcement learning framework where a single model acts in two roles: a Challenger that mines documents from a.. 2026. 3. 21. [2026-1] 정유림 - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference paper : https://arxiv.org/abs/2412.13663hugging face : https://huggingface.co/docs/transformers/main/en/model_doc/modernbert기존 BERT 모델의 한계를 뛰어넘는 ModernBERT를 소개합니다. 2조 개의 토큰으로 학습된 이 모델은 8192 토큰의 긴 시퀀스 길이에서도 뛰어난 성능을 발휘하며, 분류 및 검색 작업에서 최첨단 결과를 달성합니다. 또한, 가장 빠르고 메모리 효율적인 인코더로서 일반적인 GPU에서 효율적인 추론이 가능하도록 설계되었습니다.1. ModernBERT: 기존 BERT의 한계를 뛰어넘는 혁신적인 인코더 모델ModernBERT는 2조 개의 토큰으로 학습되어 8192 토큰의 긴 시퀀스 길이에.. 2026. 3. 20. 이전 1 2 3 4 ··· 28 다음