Natural Language Processing65 [2025-1] 김은서 - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback https://arxiv.org/abs/2309.00267 RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI FeedbackReinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offersarxiv.org 1. IntroductionR.. 2025. 2. 9. [2025-1] 정유림 - SimCSE: Simple Contrastive Learning of Sentence Embeddings 1. 논문 개요논문 제목: SimCSE: Simple Contrastive Learning of Sentence Embeddings게재 연도: 2021 (EMNLP 2021 Accepted)인용 횟수: 3449회 (2025.02.08 기준)주요 성과:SimCSE는 간단한 대조 학습(Contrastive Learning) 프레임워크로 기존 문장 임베딩(Sentence Embedding) 성능을 획기적으로 개선.비지도 학습(Unsupervised): 입력 문장을 두 번 인코딩하여 드롭아웃(Dropout) 노이즈로 양성 쌍 생성.지도 학습(Supervised): NLI 데이터셋의 Entailment 쌍(Positive Pair)과 Contradiction 쌍(Hard Negative Pair) 활용.평가 결과.. 2025. 2. 8. [2025-1] 이재호 - Titans: Learning to Memorize at Test Time https://arxiv.org/abs/2501.00663Ali Behrouz, Peilin Zhong, and Vahab Mirrokni - Google Research Titans: Learning to Memorize at Test TimeOver more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending toarxiv.. 2025. 2. 8. [2025-1] 염제원 - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs이 글에서는 “RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs” 논문을 간단히 정리한다. 해당 논문은 기존 RAG(Retrieval-Augmented Generation)에 별도 랭킹 모델을 사용하지 않고, 하나의 LLM만으로 질문과 문서 간의 적합도를 판단해 상위 문서를 선별(reranking)하고 답변까지 생성하는 새로운 방법을 제안한다.1. 배경과 문제 설정대형 언어 모델(LLM)은 거대한 파라미터로 다양한 질의에 답변할 수 있지만, 모든 지식을 파라미터에 내재화하기는 현실.. 2025. 2. 5. 이전 1 ··· 3 4 5 6 7 8 9 ··· 17 다음