전체 글304 [2025-1] PPO(proximal policy optimization) https://www.youtube.com/watch?v=cIyXYYdZIsk&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84%7CAI%26%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B0%95%EC%9D%98정책 그레디언트 근사는 다음과 같이 나타낼 수 있다.이 식에서 원래 예전 알고리즘에 경우에는 old policy에 대해서 재활용을 하지 않고 trajectory를 rollout하고 업데이트 시키고 다른 trajectory를 roll out하고 업데이트하는 식으로 학습을 진행했지만 PPO에서는 old policy를 사용해서 sample efficiency를 높이고자 하였다. old policy를 이용하게 된다면 위의 정책 그레디언트 식은 다음과 같이 변.. 2025. 2. 1. [2025-1] 최민서 - Denoising Diffusion Probabilistic Models [DDPM] https://arxiv.org/abs/2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational boundarxiv.org 본 논문은 기존 Diffusion Model의 기본적인 토대를 바탕으로 매개화를 통해 새로운 .. 2025. 2. 1. [2025-1] 박서형 - Distilling the Knowledge in a Neural Network https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural NetworkA very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersomearxiv.org 1. Introductionmachine learning 알고리즘의 성능을 향상시키는 일반적인 방법.. 2025. 2. 1. [2025-1] 정인아 - Image Super-Resolution via Iterative Refinement https://arxiv.org/abs/2104.07636 Image Super-Resolution via Iterative RefinementWe present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with parxiv.org Intro문제기존 GAN 기반 super-resolution 모델은 보기에 그럴듯해보이고, 실.. 2025. 2. 1. 이전 1 ··· 30 31 32 33 34 35 36 ··· 76 다음