핵심 문장
LLM이 겉으로는 instruction following을 잘하는 것처럼 보여도, 실제로는 익숙한 제약 몇 개만 외워서 푸는 경우가 많다. 따라서 새로운 제약에도 잘 따르는지 평가할 필요가 있으며, 이를 위해 IFBENCH와 RLVR 기반 학습이 제안된다.
1. Introduction
최근의 대형 언어모델들은 사용자의 지시를 잘 따르는 것처럼 보인다. 그러나 자세히 보면 이러한 능력은 실제 이해에 기반하기보다는, 특정 패턴에 대한 학습 결과일 가능성이 크다.
대표적인 instruction following 벤치마크인 IFEval은 25개의 constraint template으로 구성되어 있다. 최신 모델들은 이 벤치마크에서 80% 이상의 성능을 기록하며 빠르게 포화되었다.
문제는 여기서 발생한다.
이 높은 성능이 실제로 다양한 상황에서도 유지되는 능력인지, 아니면 단순히 해당 benchmark에 최적화된 결과인지 구분하기 어렵다.
이를 검증하기 위해 저자들은 IFBENCH라는 새로운 벤치마크를 제안한다. 기존과는 다른 constraint를 사용한 결과, GPT-4급 모델들도 50% 이하의 성능을 보였다.
이는 기존 LLM들이 instruction following을 잘하는 것이 아니라, 제한된 constraint 패턴에 과적합되어 있음을 의미한다.
2. Problem Formulation
이 논문에서 정의하는 precise instruction following은 다음과 같다.
언어 모델은 단순히 task를 수행하는 것이 아니라, 동시에 constraint까지 만족해야 한다.
- task: 요약, 글쓰기, 문제 해결 등
- constraint: 길이 제한, 형식, 특정 단어 포함 등
즉, 모델은 다음을 동시에 만족해야 한다.
- 의미적으로 올바른 답변 생성
- 출력 형식과 조건을 정확히 준수
기존 연구는 주로 첫 번째에 집중했지만, 실제 사용자 환경에서는 두 번째도 매우 중요하다.
3. IFBENCH: 새로운 평가 벤치마크

기존 벤치마크의 한계를 해결하기 위해 IFBENCH가 제안되었다.
구성
- 58개의 새로운 constraint
- 기존과 겹치지 않는 unseen constraint
- unseen prompt와 결합
- 총 300개의 평가 샘플
constraint 유형
- count: 개수 관련 조건
- ratio: 비율 조건
- words: 단어 조작
- sentence: 문장 구조
- format: 출력 형식
- copy: 입력 복사
- custom: 기타 복합 조건
예를 들어 다음과 같은 조건이 포함된다.
- 평서문과 의문문의 비율을 2:1로 유지하라
- 특정 단어를 정확히 N번 포함하라
핵심 결과
- IFEval에서는 높은 성능 유지
- IFBENCH에서는 성능 급락
이는 모델이 constraint를 일반화해서 이해한 것이 아니라, 특정 패턴에 맞춰 학습되었음을 보여준다.
4. IFTRAIN: 학습 데이터 설계
일반화 문제를 해결하기 위해 IFTRAIN이 함께 제안되었다.
구성
- 29개의 새로운 training constraint
- 각 constraint에 대한 검증 함수 포함
- 기존 constraint와 겹치지 않도록 설계
핵심 아이디어
성능 향상의 핵심은 단순한 데이터 증가가 아니라, constraint의 다양성이다.
같은 유형의 constraint를 반복하는 것보다, 다양한 유형의 constraint를 학습하는 것이 일반화에 더 효과적이다.
5. IF-RLVR: 학습 방법
이 논문의 핵심 기여는 RLVR 기반 학습이다.
기본 아이디어
많은 constraint는 자동으로 검증 가능하다.
이를 reward로 활용하면 reinforcement learning이 가능하다.
학습 방식
- SFT 데이터 + constraint를 결합하여 학습 데이터 생성
- 한 샘플에 여러 constraint를 동시에 적용
- GRPO 알고리즘을 사용한 reinforcement learning
reward는 다음과 같이 정의된다.

- constraint를 만족하면 보상
- 만족하지 못하면 낮은 보상
중요한 설계 요소

6. 실험 결과
1. RLVR 효과

대표적인 결과는 다음과 같다.
- TÜLU-3-8B:
- IFEval: 81.1 → 92.2
- IFBENCH: 25.5 → 44.6
즉, 기존 benchmark뿐 아니라 새로운 benchmark에서도 성능이 함께 개선된다.
결론적으로 DPO 보다 RLVR이 효과가 좋다
2. singlue turn vs multi turn

single turn만 훈련하면 single만 잘하고 multi를 학습하면 multi만 잘한다 둘다 섞어서 사용해야 한다.
7. 한계와 Trade-off
RLVR 기반 학습은 새로운 문제도 드러낸다.
모델이 constraint를 지나치게 우선시하는 경향이 생긴다.
즉 reward hacking문제가 발생한다.
8. 결론
이 논문이 전달하는 핵심 메시지는 다음과 같다.
현재 LLM의 instruction following 성능은 실제 능력이라기보다, 제한된 benchmark에 대한 과적합일 가능성이 크다.
이를 해결하기 위해:
- 새로운 benchmark(IFBENCH)로 일반화 성능을 평가하고
- 다양한 constraint를 포함한 학습 데이터(IFTRAIN)를 구성하며
- RLVR 기반 학습을 통해 constraint 준수 능력을 개선할 수 있다
결국 instruction following은 단순한 “정답 생성” 문제가 아니라,
“조건을 정확히 만족하는 생성” 문제이며,
이를 위해서는 데이터 설계와 학습 방식 모두가 중요하다는 점을 보여준다.