분류 전체보기263 [2025-1] 김학선 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.orgIntroduction최근 사후 .. 2025. 2. 10. [2025-1] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Intro 기존에 LLM모델들을 학습시킬 떄 pretrained된 모델들이 있고 이를 SFT후에 RL finetuning시키는 많은 연구들이 진행되었다. 하지만 이러한 방법은 시간이 오래걸리고 cost가 많이 든다. 최근에는 Supervised data없이 진행되는 많은 연구들이 있는데 아직까지는 O1의 추론 능력만큼 따라잡은 연구는 존재하지 않는다. 이 논문에서는 간단한 RL적용만하여 O1의 추론능력과 거의 유사한 DeepSeek-R1-Zero를 만들었다. 하지만 DeepSeek-R1-Zero는 읽기가 힘들거나 여러 언어들로 출력이 되기도 하는 문제가 생긴다. 이를 해결하기 위해 소량의 cold start data로 사용하여 fine tuning시키고 multi-stage training을 통해 이러한.. 2025. 2. 9. [2025-1] 김은서 - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback https://arxiv.org/abs/2309.00267 RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI FeedbackReinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offersarxiv.org 1. IntroductionR.. 2025. 2. 9. [2025-1] 정유림 - SimCSE: Simple Contrastive Learning of Sentence Embeddings 1. 논문 개요논문 제목: SimCSE: Simple Contrastive Learning of Sentence Embeddings게재 연도: 2021 (EMNLP 2021 Accepted)인용 횟수: 3449회 (2025.02.08 기준)주요 성과:SimCSE는 간단한 대조 학습(Contrastive Learning) 프레임워크로 기존 문장 임베딩(Sentence Embedding) 성능을 획기적으로 개선.비지도 학습(Unsupervised): 입력 문장을 두 번 인코딩하여 드롭아웃(Dropout) 노이즈로 양성 쌍 생성.지도 학습(Supervised): NLI 데이터셋의 Entailment 쌍(Positive Pair)과 Contradiction 쌍(Hard Negative Pair) 활용.평가 결과.. 2025. 2. 8. 이전 1 ··· 16 17 18 19 20 21 22 ··· 66 다음