본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 계진혁 - Direct Preference Optimization: Your Language Model is Secretly a Reward Model

by hyeokchive 2025. 2. 1.

논문 링크: https://arxiv.org/abs/2305.18290

 

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining s

arxiv.org

 

서론 및 논문 핵심 요약.

 

본 논문은 LMs(large-scale unsupervised language models, 대규모 비지도 학습 언어 모델)이 완전한 비지도 학습 방식으로 학습되므로, 특정한 방향으로 의도적으로 모델을 조정하는 것이 어렵다는 한계를 지적한다. 그리고 이러한 한계를 지적하며 DPO(Direct Preference Optimization, 직접 선호 최적화)라는 새로운 기법을 그 대안으로 제안한다.

 

기존 LMs모델이 생성한 응답에 대해 사용자가 선호하는 데이터를 수집, 이를 바탕으로 강화학습(RLHF) 적용, 모델을 미세 조정(fine-tuning)과 같은 순서로 학습한다. 그러나 위 과정은 우선적으로 보상 모델을 학습하고, 보상 모델을 기반으로 다시 강화 학습을 하여 언어 모델을 미세 조정해야 하므로, 모델이 원래의 언어 능력을 잃지 않도록 해야 하는 어려움 및 한계가 있다. , 이는 다음과 같은 2가지의 문제점을 가진다고 볼 수 있다. RLHF는 다단계 학습 과정을 필요로 하여 모델 학습 비용이 크고, 불안정함, 샘플링 과정에서 초매개변수 튜닝이 필요하여 최적의 성능을 얻기가 어려움.

 

이에 본 논문에서는 DPO라는 위와 같은 기존 방식의 한계를 해결하는 새로운 기법을 제안한다. DPO는 강화 학습 없이 선호 데이터를 최적화하는 방법이다. 이는 기존 RLHF가 사용하던 보상 모델을 직접 최적화할 수 있도록 변형하여 사용한다. , 기존처럼 RLHF을 사용할 필요 없이 단순한 분류 문제(간단한 분류 손실 함수 사용)로 변환하여 이를 대체하는 것이다.

 

 

위 그림은 RLHF와 DPO의 차이를 직관적으로 보여준다. 이 내용을 표로 요약하면 다음과 같다.

  RLHF DPO
보상 모델 필요 여부 필요 불필요
강화 학습 필요 여부 필요 불필요
최적화 방식 보상 모델을 사용하여 강화 학습 진행 직접 선호 데이터를 직접 LLM에 적용
계산 비용 높음(샘플링+보상 모델+강화 학습) 낮음(단순 분류 학습)
학습 안정 상대적으로 불안정 상대적으로 안정

즉, DPO는 RLHF보다 계산적으로 효율적이고 안정적인 방법이며, 특히 대규모 모델에서의 학습을 간소화할 수 있는 장점이 있는 방법이라고 볼 수 있다.

 

RLHF의 문제점.

 

RLHF의 최적화 목적 함수의 수학적 정의 및 그 의미는 다음과 같다.

위 수식에서 1번째 항은 '보상 모델이 높다고 평가하는 출력을 만들도록 모델을 학습'하는 것을, 2번째 항은 '모델이 원래 분포에서 너무 멀어지지 않도록 제약'하는 것을 의미한다. 이 수식을 통해 알아볼 수 있는 RLHF의 문제점은 다음과 같다.

ⓐ강화 학습에서 보상이 급변하면, 모델 또한 급변하는 문제 발생, 특히 KL-발산 제약을 제대로 조절하지 않으면 모델이 원본 분포에서 너무 벗어나거나, 지나치게 보수적으로 학습될 가능성 존재 → 모델이 급변하면 일관된 성능을 유지하기 어려움.

ⓑ β가 너무 크면 모델이 원본 분포에서 벗어나지 못해 보상을 극대화하지 못함, 가 너무 작으면 모델이 원본 분포에서 멀어져 일반화 성능이 저하됨 → 이 모든 과정에서 시간 및 계산 비용이 크게 소모되며, 최적의 초매개변수를 찾기가 매우 어려움.

 

DPO의 핵심 공식 유도.

 

DPO는 기존의 RLHF의 최적 정책 공식에서 보상 함수를 재정의하는 방식으로 최적 정책 공식을 정의한다.

 

기존 RLHF 최적 정책 공식.

*이 식은 최적의 정책이 보상 함수의 지수 함수(exp) 형태로 결정됨을 의미한다.

 

DPO가 재정의하는 보상 함수 공식.

 

위 보상 함수 공식을 바탕으로, 이를  Bradley-Terry 모델(선호도 비교 모델)에 적용하면 최적의 정책이 아래와 같은 형태로 유도됨을 알 수 있다.

여기서 좌변은 주어진 입력 x에 대해 y1이 y2보다 선호될 확률을 의미하며, 모델이 출력한 2개의 응답 중 y1이 더 나은 응답일 확률을 계산한다는 의미이다. 우변은 로지스틱 함수(시그모이드)의 형태로, 지수 함수 exp를 사용하여 y1과 y2의 상대적인 점수 차이를 확률 값으로 변환하여 선호 확률을 계산한다. 즉, y1이 y2보다 더 선호된다면 로그 비율 차이가 음수일 것이고, 이는 지수 함수 값이 작아지며 확률이 1에 가까워짐을 알 수 있다. 반대로, y1이 y2보다 덜 선호된다면 로그 비율 차이는 양수일 것이고, 지수 함수 값이 커지며 확률이 0에 가까워짐을 알 수 있다. DPO는 이와 같은 형태로 선호 데이터를 학습하며, 위 선호 확률을 이용하여 최종 모델과 기존 모델의 출력 확률 비율을 비교하며 선호 확률을 결정하여(단순한 분류 문제처럼) 학습을 수행한다. 즉, 위 공식은 기존 RLHF 방식에서 사용되는 보상 모델의 한계를 보완하고 대체하는 핵심 역할을 한다고 볼 수 있다.  

 

DPO의 손실 함수 공식은 다음과 같다.

DPO의 손실 함수 공식은 위 확률(최적 정책)이 최대화되도록, 최적화하는 방식으로 동작한다. 즉, winning response의 확률이 losing reponse보다 크도록 학습하는 방향으로 모델을 최적화하는 것이다. 최적 정책은 winning response를 더 많이 생성하는 방향으로 업데이트 된다. 결국 이는 DPO 손실 함수를 최소화하면 최적 정책이 자동으로 학습되는 것으로 이해할 수 있다.

 

DPO가 기존 RLHF보다 안정적인 이유.

 

DPO가 기존 RLHF보다 안정적인 이유는 크게 다음과 같이 3가지로 요약해볼 수 있다.

샘플링 과정의 생략: 기존 RLHF에서 수행한 보상 모델 최적화 강화 학습 과정을 DPO에서는 생략하며 학습한다.

초매개변수 조정 과정의 생략: 기존 RLHF는

모델 붕괴 방지: 기존 RLHF는 모델이 특정 보상에 과적합될 위험성을 가지지만, DPO는 KL 발산을 포함하여 모델이 원본 분포에서 크게 벗어나지 않도록 학습한다.