본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 김은서 - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

by kes305 2025. 2. 9.

https://arxiv.org/abs/2309.00267

 

RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offers

arxiv.org

 

1. Introduction

  • RLHF는 인간의 선호를 model에 일치 시키는데 효과적이며, ChatGPT와 Bard 같은 LLM에서 중요한 역할을 한다.
  • 하지만 RLHF를 하기 위해서는 고품질의 humam preference labels가 필요하다.
  • Constitutional ai: Harmlessness from ai feedback (2022)에서 RLAIF가 처음 시도되었지만 RLHF와 RLAIF의 직접적인 비교가 없다는 한계가 존재한다.

 

2. Methodology

2.1 Perference Labeling with LLMs

Al가 입력된 응답 중 어느 것이 더 좋은 지 평가하여 선호도를 부여하는 과정이다.

(1) LLM에게 평가 요청 (Prompting)

  • LLM에게 응답을 비교 평가하도록 요청하는 prompt를 설계한다.
  1. Preamble: 평가 기준 설명
  2. Few-shot exemplars(선택 사항): 좋은 평가를 위한 예제 제공
  3. Sample to annotate: input context와 비교할 두 개의 응답 제공
  4. Ending: LLM을 prompt한 것에 대한 ending text (ex. “Preferred Response =”)

(2) AI가 응답을 평가하여 선호도 부여

  • LLM이 제공된 두 개의 응답을 비교한 후, 어느 응답이 더 나은지 판단한다.
  • 평과 결과는 확률값 (softmax)으로 변환하여 저장된다.

(3) AI 선호도를 보상 모델(RM) 학습에 활용

  • LLM이 평가한 선호도를 기반으로 보상 모델을 학습한다.
  • 이후 RL과정에서 AI policy model이 더 나은 응답을 생성하도록 유도한다.

 

2.2 Reinforcement Learning from AI Feedback

Canonical RLAIF

  1. AI Preference Labeling
    • AI를 활용하여 선호도 데이터를 생성하는 과정
    • 두 개의 응답 중 더 나은 응답을 선택하고, 이를 학습 데이터로 사용함
  2. Reward Model
    • AI가 생성한 선호도 데이터를 기반으로 reward model을 학습함
    • 보상 모델은 입력과 응답을 받아 좋은 응답일수록 높은 보상을 할당하는 함수를 학습함
  3. Reinforcemnet Learning
    • 보상 모델을 활용하여 정책 모델을 강화 학습함
    • 정책 모델은 RLHF와 동일한 방식으로 학습됨

Direct RLALF (D-RLAIF)

  • AI preference를 reward model에 학습시키는 것이 아니고, 바로 reward signal로 사용한다.
  • AI perference → reward 과정 (아래 서술)
  1. LLM이 응답을 평가하고, 점수를 1~10 범위에서 부여하도록 한다.
  2. 1~10 점수의 likelihood를 정규화하여 token generation probability로 변환한다.
  3. weighted score 를 $s(y∣x)=∑_{i=1}^{10} iP(i∣y,x)$으로 계산한다. → 여기서 $P(i∣y,x)$는 LLM이 특정 점수 $i$(1~10)일 확률을 예측한 값
  4. 이 점수를 [-1, 1] 범위로 다시 정규화한다.
비교 항목 RLAIF d-RLAIF
Preference 평가 방식 LLM이 응답을 비교하여 선호도 라벨을 생성 동일
Reward 계산 방식 선호도 데이터를 학습하여 보상 모델 구축 후 사용 LLM이 직접 보상 점수(1~10)를 부여
보상 적용 방식 보상 모델이 생성된 응답을 평가하여 보상 결정 LLM이 평가한 점수를 직접 RL 보상으로 사용
학습 속도 보상 모델이 학습이 필요하여 추가 학습 시간이 소요됨 즉시 보상을 계산하여 RL에 활용 가능

 

2.3 Evaluation

AI가 생성한 응답이 얼마나 인간의 평가와 잘 맞는지, 유용하고 안전한지를 측정한다. 이에 대한 기준은 AI Labeler Alignment, Win Rate, Harmless Rate로 잡는다.

 

AI Labeler Alignment

  • $D$ : 전체 평가 데이터 개수
  • $P^{AI}_{i,j}$ : Dx2 크기의 soft AI preferences 행렬
    • AI가 D에 대해 두 개의 응답 중 하나를 선호할 확률을 나타내는 행렬
    • 각 행에 [응답 1을 선택할 확률, 응답 2를 선택할 확률]이 포함됨
    • AI가 응답을 비교한 후 각 응답이 선택될 확률을 부여한 값
  • $p^{H}_{i}$ : D 크기의 human preferences를 나타내는 벡터
    • 인간이 응답을 비교한 후 선택한 결과를 저장한 벡터
    • 0과 1로 표현됨

→ AI가 인간과 얼마나 유사한 선호도를 갖는지 평가

 

Win Rate

  • human annotator가 2개의 policy 중 더 선호하는 것을 선택
  • 두 개의 응답(AI 응답 vs. 비교 대상 응답)을 인간 평가자가 보고, 더 나은 응답을 선택했을 때 AI 응답이 선택된 비율

 

Harmless Rate

  • human annotator에 의해 위험하지 않다고 평가되는 답변의 비율
  • AI가 부적절한 내용, 유해한 발언, 차별적이거나 윤리적으로 문제가 있는 내용을 생성하지 않을 확률

 

3. Experimental Details

  • 사용된 데이터셋: 여러 데이터셋을 사용하여 실험을 진행했으며, 각 데이터셋은 특정한 태스크(예: 요약, 유용성, 무해성 평가)를 다룬다.
  • LLM 라벨링: 모델이 빠른 실험 진행을 위해 다운샘플링된 데이터셋으로 학습되며, PaLM 2 모델을 사용하여 선호도를 라벨링한다.
  • 모델 학습: REINFORCE 알고리즘을 활용하여 강화 학습을 통해 정책을 훈련하며, SFT 모델에서 초기화하여 훈련을 시작한다.
  • 인간 평가: 승률과 응답의 품질을 기준으로 평가하여 RLAIF, RLHF, SFT 정책 간의 성능을 비교한다.

 

4. Results

4.1 RLAIF vs. RLHF

  • 3개의 task: summarization, helpful dialogue generation, and harmless dialogue generation 수행
  • RLAIF와 RLHF가 SFT보다 outperform
  • summarization, helpful dialogue에서 RLHF와 RLAIF의 유의미한 차이가 존재하지 않음
  • harmless dialogue에서는 RLAIF가 RLHF보다 outperform

따라서, RLAIF가 human annotation가 필요 없이 RLHF의 대안이 될 수 있다.

 

4.2 D-RLAIF

  • 계산 비용을 줄이기 위해 PaLM 2 XS라는 소형 AI 모델을 사용하여 AI 피드백을 제공한다.
  • d-RLAIF는 SFT나 동일 크기의 RLAIF보다 더 우수한 성과를 보였으며, annotator들은 d-RLAIF를 선호한다.

 

4.3 Prompting Techniques

  • prompt 변형이 모델의 성능에 영향을 미친다.
  • Detailed preamble은 summary에서는 효과적이지만, helpful 작업과 harmless 작업에서는 일관되지 않은 결과를 나타낸다.
  • in-context learning은 harmless 작업에서 효과적이다.
  • CoT는 summary, helphul 작업에 효과적이다.

 

4.4 Size of LLM Labeler

  • 모델 크기가 커질수록 정렬이 향상되는 경향이 있으며, (논문에서는) 작은 모델은 위치 편향이 더 크다는 가설 제시한다.
  • 모델의 크기를 키우면 더 정확하고 고품질의 선호도 라벨을 생성할 수 있다
  • 즉, 모델의 크기가 성능에 중요한 영향을 미친다.
  • AI 라벨러는 선호도 라벨을 생성하는 데만 사용되고, RL 과정에서는 사용되지 않기 때문에, 모델 크기를 키우는 것이 비용 효율적일 수 있다.

 

5. Qualitative Observations

  • RLAIF와 RLHF는 대부분 유사한 요약을 생성하지만, 때때로 차이가 발생한다.
  • RLHF는 hallucination(환각)을 일으킬 수 있으며, 원본 텍스트와 일치하지 않는 정보를 추가하는 경우가 있다.
  • RLAIF는 때때로 불필요한 반복이나 유창하지 않은 문장을 생성하기도 했다.
  • 70개의 예시를 가지고 annotators이 RLHF와 RLAIF 요약을 객관적으로 평가하도록 했다.
  • RLAIF와 RLHF의 차이가 통계적으로 유의미한 차이를 보이지는 않았다

→ 차이점을 대규모 데이터셋에서 확인하려면 추가적인 연구가 필요

 

6. Conclusion

  • RLAIF는 RLHF와 비교하여 유사한 성능 개선을 보였으며, 두 모델은 인간 평가자들에게 비슷한 비율로 선호된다.
  • direct-RLAIF는 기존의 RLAIF보다 더 좋은 성과를 보였으며, 이는 피드백을 바로 제공하는 방식이 효과적임을 보여준다.
  • 다양한 AI 라벨링 기술이 인간 선호와의 일치에 미치는 영향을 연구하였고, RLAIF의 잠재력을 강조한다.