[2025-1] 전윤경- Roformer: Enhanced Transformer with Rotary Position Embedding

Introduction

RoPE: 회전 행렬을 사용하여 절대적인 위치를 인코딩하고 self attention 공식에 명시적인 상대적 위치 의존성을 통합함.

유연한 시퀀스 길이 지원
상대적 거리가 증가함에 따라 토큰 간의 의존도 감소
linear self-attention 메커니즘에서도 상대적 위치 인코딩을 적용할 수 있는 능력 갖춤

Roformer: 회전 위치 임베딩(RoPE)을 적용한 Transformer 모델 -> 기존 방법보다 우수한 성능

Background and Related Work

preliminary

$ S_{N}=\left\{w_{i} \right\}_{i=1}^{N}$ : N개 인풋 토큰의 시퀀스.

$ E_{N}=\left\{x_{i} \right\}_{i=1}^{N}$ : PE 가 적용되지 않은 word embedding

$x_{i}\in \mathbb{R}^{d}$ , d: 임베딩 디멘션 크기.

self attention 메커니즘: 위치 정보를 word embedding에 통합

-> query, key, value 표현으로 변환( $f_{q}, f_{k}, f_{v}$가 위치 정보를 더해주는 함수)

절대적 위치 임베딩(APE)

sinusoidal 방식

상대적 위치 임베딩(RPE)

모델 레이어 마다 주입이 됨

absolute attention score

content-to-content/ content-to position / position-to-content / position-to-position

1. shaw 연구

$p^{\sim k}r, p^{\sim v}r$ : 학습 가능한 relative position embedding

$r=clip(m-n,r_{min},r_{max})$ : 위치 m,n 사이의 상대거리-> 엄청 먼 위치끼리의 상대 거리 중요하지 않을것이라 생각

2. Dai( Transformer-XL 연구)

$p_{n}$ (절대적 위치 임베딩) -> sinusoidal 함수로 인코딩된 상대적 위치 임베딩

$p_{m}$-> 쿼리위치와 독립적인 2개의 학습 가능한 u,v(vector)

3. T5

content to content를 제외한 3개의 항을 학습가능한 bias항으로 바꿈(trainable bias)

->efficient transformer 적용 불가능

4. TUPE

position-to-position가 무의미한 정보 (content-to-content와 와 같은 parameter를 공유)

가운데 두 항 : 단어와 위치의 상관관계 -> unify 하여 모델링

5. DeBERTa

position-to-position는 무의미

APE를 RPE로 교체

전부 additive 기반 -> multiplicative 기반

Method

쿼리 $q_{m}$과 키 $k_{n}$의 내적을 함수 g로 정의

Rotary position embedding

token embedding -> complex number
position: token embedding을 rotation 시킨 값

2. General form

ㅇ$R^{d}$가 직교행렬 , 안정성을 보장

Properties

1. long term decay

relative position이 멀어지면 inner product 값이 감소하는 효과

2. RoPE with linear attention

self attention:$O(N^{2})$

linear attention 식(Katharopoulos et al. [2020])

Experiments

1. machine translation

BLEU: 기계번역 결과가 인간 번역과 얼마나 일치하는지를 측정, 텍스트의 유사성을 비교하는 방식

2. Pre-training Language Modeling

문맥 표현 학습 측면에서 성능을 검증

BERT의 원래 사인파 위치 인코딩을 사전 학습 단계에서 RoPE로 교체

3. Fine-tuning on GLUE tasks

6개중 3개에서 크게 능가함.

4. performer: 입력 시퀀스 길이에 따라 계산 비용이 증가하지 않도록 설계된 선형 어텐션

5. Evaluation on Chinese Data

입력 길이에 따른 성능 변화를 평가

512자 이하의 짧은 문장: WoBERT와 성능 비슷. BERT보다는 약간 더 우수

입력 최대 길이를 1024자로 확장: WoBERT보다 1.5% 높은 정확도

-> 긴 문서에서 더 뛰어난 성능을 발휘

Conclusions

Transformer의 성능을 향상시키기 위해 상대적 위치 정보(RoPE) 를 활용한 새로운 위치 임베딩 기법을 제안함

상대적 위치 정보- self attention 연산 내 벡터 내적으로 표현
절대적 위치 정보- 회전 행렬을 통해 인코딩됨

'Computer Vision' 카테고리의 다른 글

[2025-1] 유경석 - Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference (LCM) (0)	2025.02.01
[2025-1] 주서영 - SRDiff : Single image super-resolution with diffusion probabilistic models (1)	2025.02.01
[2025-1] 전연주 - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (0)	2025.01.31
[2025-1] 전연주 - Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference (0)	2025.01.25
[2025-1] 임수연 - Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialNetwork (0)	2025.01.25