분류 전체보기263 [2025-1] 노하림 - A2C A2C 알고리즘A2C는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q함수의 구조가 단순해지며 액션에 대한 정보가.. 2025. 1. 26. [2025-1] 김은서 - Actor-Critic https://youtu.be/DnwRhx5EI38?si=z-krgX0xE_5I9Zc0 1. Policy Gradientpolicy gradient는 강화학습에서 정책(policy)을 직접 학습하는 방법이다. 여기서 정책은 $\pi_{θ}(a|s)$로 표현되며, 상태 s에서 행동 a를 선택할 확률 분포를 나타낸다.policy gradient의 목표는 정책을 업데이트하여 expected return을 최대화 하는 것이다. 목표 함수는 다음과 같다.$$ J(θ)=E_{π_{θ}}[R] $$핵심은 이 $J(θ)$를 최대화하기 위한 기울기를 계산하는 것이다. 따라서 policy gradient 정리는 다음과 같다.$$ ∇_{θ}J(θ)\cong \int_{\tau}^{}\sum_{t=0}^\infty∇_{θ}l.. 2025. 1. 26. [2025-1] 전연주 - Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 링크: 2310.04378 참고 유튜브 링크: [Open DMQA Seminar] Accelerating Diffusion Models - Consistency Models and Hybrid Approach - YouTube 참고 논문 리뷰 블로그 링크: Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰 :: LOEWEN Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 .. 2025. 1. 25. [2025-1] 김지원 - Efficiently Modeling Long Sequences with Structured State Spaces 논문 링크 Efficiently Modeling Long Sequences with Structured State Spaces특징 : ICRL 2022 Outstanding Paper, 인용 수 1578회 (2025-01-25 기준)코드: https://github.com/state-spaces/s4 GitHub - state-spaces/s4: Structured state space sequence modelsStructured state space sequence models. Contribute to state-spaces/s4 development by creating an account on GitHub.github.com 1. Preliminaries해당 논문을 이해하기 위해 저자인 Albe.. 2025. 1. 25. 이전 1 ··· 22 23 24 25 26 27 28 ··· 66 다음