본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 전윤경- Roformer: Enhanced Transformer with Rotary Position Embedding

by rachel2003 2025. 1. 31.

Introduction

RoPE: 회전 행렬을 사용하여 절대적인 위치를 인코딩하고 self attention 공식에 명시적인 상대적 위치 의존성을 통합함.

  • 유연한 시퀀스 길이 지원
  • 상대적 거리가 증가함에 따라 토큰 간의 의존도 감소
  • linear self-attention 메커니즘에서도 상대적 위치 인코딩을 적용할 수 있는 능력 갖춤

Roformer:  회전 위치 임베딩(RoPE)을 적용한 Transformer 모델 -> 기존 방법보다 우수한 성능

 

Background and Related Work

preliminary

$ S_{N}=\left\{w_{i} \right\}_{i=1}^{N}$  : N개 인풋 토큰의 시퀀스.

$ E_{N}=\left\{x_{i} \right\}_{i=1}^{N}$  :  PE 가 적용되지 않은 word embedding 

$x_{i}\in \mathbb{R}^{d}$ , d: 임베딩 디멘션 크기.

self attention 메커니즘: 위치 정보를 word embedding에 통합

-> query, key, value 표현으로 변환( $f_{q}, f_{k}, f_{v}$가 위치 정보를 더해주는 함수)

 

절대적 위치 임베딩(APE)

sinusoidal 방식

상대적 위치 임베딩(RPE)

모델 레이어 마다 주입이 됨

 

absolute attention score

 content-to-content/ content-to position / position-to-content / position-to-position

 

1. shaw  연구

$p^{\sim k}r, p^{\sim v}r$ : 학습 가능한 relative position embedding

$r=clip(m-n,r_{min},r_{max})$ : 위치 m,n 사이의 상대거리-> 엄청 먼 위치끼리의 상대 거리 중요하지 않을것이라 생각

 

2. Dai( Transformer-XL 연구)

 

$p_{n}$ (절대적 위치 임베딩) -> sinusoidal 함수로 인코딩된 상대적 위치 임베딩 

$p_{m}$-> 쿼리위치와 독립적인 2개의 학습 가능한 u,v(vector)

 

 

3. T5

content to content를 제외한 3개의 항을 학습가능한 bias항으로 바꿈(trainable bias)

->efficient transformer 적용 불가능

4. TUPE

position-to-position가 무의미한 정보 (content-to-content와 같은 parameter를 공유)

가운데 두 항 : 단어와 위치의 상관관계 -> unify 하여 모델링

5. DeBERTa

position-to-position는 무의미

APE를 RPE로 교체

 

 

전부 additive 기반 -> multiplicative 기반

 

Method

 

쿼리 $q_{m}$과 키 $k_{n}$의 내적을 함수 g로 정의

 

Rotary position embedding

  • token embedding -> complex number
  • position: token embedding을 rotation 시킨 값

  1. 2D

 

 

 

2. General form

 

 

 

 

ㅇ$R^{d}$가 직교행렬 , 안정성을 보장

Properties

1. long term decay

relative position이 멀어지면 inner product 값이 감소하는 효과

2. RoPE with linear attention

self attention:$O(N^{2})$

 

linear attention 식(Katharopoulos et al. [2020])

Experiments

1. machine translation

BLEU: 기계번역 결과가 인간 번역과 얼마나 일치하는지를 측정, 텍스트의 유사성을 비교하는 방식

2. Pre-training Language Modeling

문맥 표현 학습 측면에서 성능을 검증

BERT의 원래 사인파 위치 인코딩을 사전 학습 단계에서 RoPE로 교체

3. Fine-tuning on GLUE tasks

  •  6개중 3개에서 크게 능가함.

4. performer: 입력 시퀀스 길이에 따라 계산 비용이 증가하지 않도록 설계된 선형 어텐션

5. Evaluation on Chinese Data

입력 길이에 따른 성능 변화를 평가

512자 이하의 짧은 문장:  WoBERT와 성능 비슷. BERT보다는 약간 더 우수

입력 최대 길이를 1024자로 확장:  WoBERT보다 1.5% 높은 정확도

-> 긴 문서에서 더 뛰어난 성능을 발휘

 

Conclusions

Transformer의 성능을 향상시키기 위해 상대적 위치 정보(RoPE) 를 활용한 새로운 위치 임베딩 기법을 제안함

  • 상대적 위치 정보- self attention 연산 내 벡터 내적으로 표현
  • 절대적 위치 정보- 회전 행렬을 통해 인코딩됨