분류 전체보기265 [2025-1] 전윤경- Roformer: Enhanced Transformer with Rotary Position Embedding IntroductionRoPE: 회전 행렬을 사용하여 절대적인 위치를 인코딩하고 self attention 공식에 명시적인 상대적 위치 의존성을 통합함.유연한 시퀀스 길이 지원상대적 거리가 증가함에 따라 토큰 간의 의존도 감소linear self-attention 메커니즘에서도 상대적 위치 인코딩을 적용할 수 있는 능력 갖춤Roformer: 회전 위치 임베딩(RoPE)을 적용한 Transformer 모델 -> 기존 방법보다 우수한 성능 Background and Related Workpreliminary$ S_{N}=\left\{w_{i} \right\}_{i=1}^{N}$ : N개 인풋 토큰의 시퀀스.$ E_{N}=\left\{x_{i} \right\}_{i=1}^{N}$ : PE 가 적용되지.. 2025. 1. 31. [2025-1] 전연주 - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 논문 링크: 2305.132451. Attention 개요GQA를 이해하기 위해 Transformer 모델에서 사용되는 주요 Attention 기법을 정리한다.Multi-Head Attention (MHA)Transformer 모델의 핵심 구조로, Attention Is All You Need (2017) 논문에서 제안됨.Query(Q), Key(K), Value(V)를 여러 개의 Head로 나누어 병렬 연산 수행.장점: 다양한 의미 표현을 학습할 수 있어 모델 성능 향상.단점: 메모리 사용량이 많고, 연산량이 크며, 병목 현상이 발생할 가능성이 있음.KV Cached AttentionAutoRegressive Inference에서 이전 token에 대한 Key-Value(KV) 연산을 저장하는 방식.W.. 2025. 1. 31. [2025-1] 노하림 - A2C A2C 알고리즘A2C는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q함수의 구조가 단순해지며 액션에 대한 정보가.. 2025. 1. 26. [2025-1] 김은서 - Actor-Critic https://youtu.be/DnwRhx5EI38?si=z-krgX0xE_5I9Zc0 1. Policy Gradientpolicy gradient는 강화학습에서 정책(policy)을 직접 학습하는 방법이다. 여기서 정책은 $\pi_{θ}(a|s)$로 표현되며, 상태 s에서 행동 a를 선택할 확률 분포를 나타낸다.policy gradient의 목표는 정책을 업데이트하여 expected return을 최대화 하는 것이다. 목표 함수는 다음과 같다.$$ J(θ)=E_{π_{θ}}[R] $$핵심은 이 $J(θ)$를 최대화하기 위한 기울기를 계산하는 것이다. 따라서 policy gradient 정리는 다음과 같다.$$ ∇_{θ}J(θ)\cong \int_{\tau}^{}\sum_{t=0}^\infty∇_{θ}l.. 2025. 1. 26. 이전 1 ··· 22 23 24 25 26 27 28 ··· 67 다음