Introduction
RoPE: 회전 행렬을 사용하여 절대적인 위치를 인코딩하고 self attention 공식에 명시적인 상대적 위치 의존성을 통합함.
- 유연한 시퀀스 길이 지원
- 상대적 거리가 증가함에 따라 토큰 간의 의존도 감소
- linear self-attention 메커니즘에서도 상대적 위치 인코딩을 적용할 수 있는 능력 갖춤
Roformer: 회전 위치 임베딩(RoPE)을 적용한 Transformer 모델 -> 기존 방법보다 우수한 성능
Background and Related Work
preliminary
$ S_{N}=\left\{w_{i} \right\}_{i=1}^{N}$ : N개 인풋 토큰의 시퀀스.
$ E_{N}=\left\{x_{i} \right\}_{i=1}^{N}$ : PE 가 적용되지 않은 word embedding
$x_{i}\in \mathbb{R}^{d}$ , d: 임베딩 디멘션 크기.
self attention 메커니즘: 위치 정보를 word embedding에 통합
-> query, key, value 표현으로 변환( $f_{q}, f_{k}, f_{v}$가 위치 정보를 더해주는 함수)
절대적 위치 임베딩(APE)
sinusoidal 방식
상대적 위치 임베딩(RPE)
모델 레이어 마다 주입이 됨
absolute attention score
content-to-content/ content-to position / position-to-content / position-to-position
1. shaw 연구
$p^{\sim k}r, p^{\sim v}r$ : 학습 가능한 relative position embedding
$r=clip(m-n,r_{min},r_{max})$ : 위치 m,n 사이의 상대거리-> 엄청 먼 위치끼리의 상대 거리 중요하지 않을것이라 생각
2. Dai( Transformer-XL 연구)
$p_{n}$ (절대적 위치 임베딩) -> sinusoidal 함수로 인코딩된 상대적 위치 임베딩
$p_{m}$-> 쿼리위치와 독립적인 2개의 학습 가능한 u,v(vector)
3. T5
content to content를 제외한 3개의 항을 학습가능한 bias항으로 바꿈(trainable bias)
->efficient transformer 적용 불가능
4. TUPE
position-to-position가 무의미한 정보 (content-to-content와 와 같은 parameter를 공유)
가운데 두 항 : 단어와 위치의 상관관계 -> unify 하여 모델링
5. DeBERTa
position-to-position는 무의미
APE를 RPE로 교체
전부 additive 기반 -> multiplicative 기반
Method
쿼리 $q_{m}$과 키 $k_{n}$의 내적을 함수 g로 정의
Rotary position embedding
- token embedding -> complex number
- position: token embedding을 rotation 시킨 값
- 2D
2. General form
ㅇ$R^{d}$가 직교행렬 , 안정성을 보장
Properties
1. long term decay
relative position이 멀어지면 inner product 값이 감소하는 효과
2. RoPE with linear attention
self attention:$O(N^{2})$
linear attention 식(Katharopoulos et al. [2020])
Experiments
1. machine translation
BLEU: 기계번역 결과가 인간 번역과 얼마나 일치하는지를 측정, 텍스트의 유사성을 비교하는 방식
2. Pre-training Language Modeling
문맥 표현 학습 측면에서 성능을 검증
BERT의 원래 사인파 위치 인코딩을 사전 학습 단계에서 RoPE로 교체
3. Fine-tuning on GLUE tasks
- 6개중 3개에서 크게 능가함.
4. performer: 입력 시퀀스 길이에 따라 계산 비용이 증가하지 않도록 설계된 선형 어텐션
5. Evaluation on Chinese Data
입력 길이에 따른 성능 변화를 평가
512자 이하의 짧은 문장: WoBERT와 성능 비슷. BERT보다는 약간 더 우수
입력 최대 길이를 1024자로 확장: WoBERT보다 1.5% 높은 정확도
-> 긴 문서에서 더 뛰어난 성능을 발휘
Conclusions
Transformer의 성능을 향상시키기 위해 상대적 위치 정보(RoPE) 를 활용한 새로운 위치 임베딩 기법을 제안함
- 상대적 위치 정보- self attention 연산 내 벡터 내적으로 표현
- 절대적 위치 정보- 회전 행렬을 통해 인코딩됨