gqa1 [2025-1] 전연주 - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 논문 링크: 2305.132451. Attention 개요GQA를 이해하기 위해 Transformer 모델에서 사용되는 주요 Attention 기법을 정리한다.Multi-Head Attention (MHA)Transformer 모델의 핵심 구조로, Attention Is All You Need (2017) 논문에서 제안됨.Query(Q), Key(K), Value(V)를 여러 개의 Head로 나누어 병렬 연산 수행.장점: 다양한 의미 표현을 학습할 수 있어 모델 성능 향상.단점: 메모리 사용량이 많고, 연산량이 크며, 병목 현상이 발생할 가능성이 있음.KV Cached AttentionAutoRegressive Inference에서 이전 token에 대한 Key-Value(KV) 연산을 저장하는 방식.W.. 2025. 1. 31. 이전 1 다음