본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing65

[2025-1] 김학선 - DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence IntroductionLLMs의 급속한 발전으로 인해 소프트웨어 개발 분야는 크게 변화했다. 그러나 이러한 발전에도 불구하고 LLMs의 주요 도전 과제는 오픈 소스 모델과 폐쇄형 소스 모델간의 성능 격차이다. 강력한 폐쇄형 소스 모델들은 외부의 접근이 제한되며, 독점적인 성격으로 인해 활용에 제약이 따른다. 이러한 도전 과제에 대응하기 위해 DeepSeek-Coder 시리즈를 제시했다.DeepSeek-Coder 시리즈Size: 1.3B ~ 33BVersion: Base, InstructPre-train data: Repository 수준에서의 학습 데이터를 구성(→ 교차 파일 이해 능력 향상)Pre-train processLoss: Next token predictionMethod: Fill-In-the.. 2025. 2. 12.
[2025-1] 정규원 AD-NLP: A Benchmark for Anomaly Detection in Natural Language Processing https://aclanthology.org/2023.emnlp-main.664/ AD-NLP: A Benchmark for Anomaly Detection in Natural Language ProcessingMatei Bejan, Andrei Manolache, Marius Popescu. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023.aclanthology.org 이전까지는 데이터셋의 일부 클래스를 다운샘플링 하였는데 이는 재현성 문제와 특정 유형의 이상을 감지하는 데 편향된 모델이라는 점에서 정교한 시나리오 인식이 어렵다는 문제를 야기했다. 본 논문에서는 통합된 벤치 마크를 제공.. 2025. 2. 11.
[2025-1] 김학선 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.orgIntroduction최근 사후 .. 2025. 2. 10.
[2025-1] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Intro 기존에 LLM모델들을 학습시킬 떄 pretrained된 모델들이 있고 이를 SFT후에 RL finetuning시키는 많은 연구들이 진행되었다. 하지만 이러한 방법은 시간이 오래걸리고 cost가 많이 든다. 최근에는 Supervised data없이 진행되는 많은 연구들이 있는데 아직까지는 O1의 추론 능력만큼 따라잡은 연구는 존재하지 않는다. 이 논문에서는 간단한 RL적용만하여 O1의 추론능력과 거의 유사한 DeepSeek-R1-Zero를 만들었다. 하지만 DeepSeek-R1-Zero는 읽기가 힘들거나 여러 언어들로 출력이 되기도 하는 문제가 생긴다. 이를 해결하기 위해 소량의 cold start data로 사용하여 fine tuning시키고 multi-stage training을 통해 이러한.. 2025. 2. 9.