Natural Language Processing71 [2025-1] 계진혁 - Direct Preference Optimization: Your Language Model is Secretly a Reward Model 논문 링크: https://arxiv.org/abs/2305.18290 Direct Preference Optimization: Your Language Model is Secretly a Reward ModelWhile large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining sarxiv.org 서론 및 논문 핵심 요약... 2025. 2. 1. [2025-1] PPO(proximal policy optimization) https://www.youtube.com/watch?v=cIyXYYdZIsk&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84%7CAI%26%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B0%95%EC%9D%98정책 그레디언트 근사는 다음과 같이 나타낼 수 있다.이 식에서 원래 예전 알고리즘에 경우에는 old policy에 대해서 재활용을 하지 않고 trajectory를 rollout하고 업데이트 시키고 다른 trajectory를 roll out하고 업데이트하는 식으로 학습을 진행했지만 PPO에서는 old policy를 사용해서 sample efficiency를 높이고자 하였다. old policy를 이용하게 된다면 위의 정책 그레디언트 식은 다음과 같이 변.. 2025. 2. 1. [2025-1] 임재열- Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba는 2024년 Albert Gu와 Tri Dao가 제안한 모델입니다. [Mamba]https://arxiv.org/abs/2312.00752 Mamba: Linear-Time Sequence Modeling with Selective State SpacesFoundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated conv.. 2025. 2. 1. [2025-1] 차승우 - LONG SHORT-TERM MEMORY https://www.bioinf.jku.at/publications/older/2604.pdf 0. Abstract 1. LSTM 출현 배경 - 기존의 순환 신경망(RNN)은 긴 시간 간격에 걸친 정보를 학습하기 어렵습니다. - Gradient Vanishing 2. LSTM 1. Constant Error Carousel - 특정 유닛 내에서 오류 신호가 사라지지 않고 일정하게 유지되도록 설계된 구조 2. Gate - 게이트를 통해 정보를 선택적으로 저장 및 삭제, 계산 3. 실험 결과 1. RNN의 장기 의존성 문제 해결 1. Introduction 1. 순환신경망 - 순환 신경망은 피드백을 통해 단기 기억 형태로 저장할 수 있으나, 단기 기억에 무엇을 저장할지를 학.. 2025. 1. 25. 이전 1 ··· 6 7 8 9 10 11 12 ··· 18 다음