본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기281

[2025-1] 계진혁 - Direct Preference Optimization: Your Language Model is Secretly a Reward Model 논문 링크: https://arxiv.org/abs/2305.18290 Direct Preference Optimization: Your Language Model is Secretly a Reward ModelWhile large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining sarxiv.org 서론 및 논문 핵심 요약... 2025. 2. 1.
[2025-1] PPO(proximal policy optimization) https://www.youtube.com/watch?v=cIyXYYdZIsk&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84%7CAI%26%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B0%95%EC%9D%98정책 그레디언트 근사는 다음과 같이 나타낼 수 있다.이 식에서 원래 예전 알고리즘에 경우에는 old policy에 대해서 재활용을 하지 않고 trajectory를 rollout하고 업데이트 시키고 다른 trajectory를 roll out하고 업데이트하는 식으로 학습을 진행했지만 PPO에서는 old policy를 사용해서 sample efficiency를 높이고자 하였다. old policy를 이용하게 된다면 위의 정책 그레디언트 식은 다음과 같이 변.. 2025. 2. 1.
[2025-1] 최민서 - Denoising Diffusion Probabilistic Models [DDPM] https://arxiv.org/abs/2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational boundarxiv.org 본 논문은 기존 Diffusion Model의 기본적인 토대를 바탕으로 매개화를 통해 새로운 .. 2025. 2. 1.
[2025-1] 박서형 - Distilling the Knowledge in a Neural Network https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural NetworkA very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersomearxiv.org 1. Introductionmachine learning 알고리즘의 성능을 향상시키는 일반적인 방법.. 2025. 2. 1.