[2026-2] 전진우, 김지은 - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark 2026. 2. 19.
https://arxiv.org/abs/2406.01574
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as mo
arxiv.org
https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
TIGER-Lab/MMLU-Pro · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
1. 데이터셋 구성 의의
기존 MMLU는 오랫동안 범용 지식/이해력 평가의 표준처럼 쓰였지만, 모델 성능이 상향 평준화되면서 점수가 상위권에 뭉치고(포화), 프롬프트에 따른 점수 변동도 커서 비교가 애매해지는 문제가 있었습니다. MMLU-Pro는 이 한계를 줄이기 위해 (1) 더 어려운 문제, (2) 더 낮은 ‘찍기’ 확률, (3) 더 안정적인 평가를 목표로 설계되었습니다.
핵심 아이디어는 간단합니다.
- 보기 개수 확장(4지선다 → 10지선다): 우연 정답 가능성을 낮추고 “시험 잘 치는 요령”을 어렵게 만듭니다.
- 난이도/추론 비중 강화 + 노이즈 문항 정제: MMLU의 trivial/noisy 문항을 덜어내고, reasoning 중심 문제를 더 넣습니다.
- 프롬프트 안정성 강화: 24개 프롬프트 스타일로 테스트했을 때 점수 민감도가 MMLU 대비 낮아졌다고 보고합니다.
2. MMLU-Pro 실제 문제 예시
예시 1) 할부 구매 이자율 (Business)
Q. A $39.90 radio can be purchased on the installment plan for $5.00 down and $3.10 a month for a year. What is the annual interest rate for this installment purchase?
Options (10개):
14%, 17.5%, 10%, 15%, 19.8%, 20%, 5%, 8%, 12.2%, 25%
정답 라벨: I
예시 2) 만기일 계산 (Business)
Q. A loan is made on December 17 for a time period of 120 days. When is it due (not a leap year)?
Options (10개):
April 15, April 13, April 18, May 15, April 16, April 12, April 17, May 1, March 17, April 14
정답 라벨: E
예시 3) 광고 효과 모델 식별 (Business/Marketing)
Q. This is a hierarchy of effects or sequential model used to explain how advertising works:
Options (10개):
SWOT., SMART., PESTLE., AIDA., STP Model., 5C's Analysis., PORTER., 7P's of Marketing., ADD., BCG Matrix.
3. 데이터셋 관련 통계 (크기/도메인)
공식 설명 기준으로 MMLU-Pro는:
- 총 12,000+ 문항
- 14개 도메인(Biology, Business, Chemistry, CS, Economics, Engineering, Health, History, Law, Math, Philosophy, Physics, Psychology, Others)
로 구성됩니다.

4. 각 모델 간 벤치마크 성적
1) Frontier모델간 성능비교

최신 리더보드에서는 상위권이 88~90%대로 올라와 있고, 1~3위가 Gemini 3 Pro/Flash, Claude Opus로 잡힙니다.
- Google: Pro > Flash 경향(동일 계열에서 Pro가 더 높게 잡히는 패턴)
- 최근 오픈 소스 llm모델들도 많이 따라왔지만, 리더보드 최상위(88~90대)와는 보통 여전히 갭이 남는 편입니다
2) 파라미터 수에 따른 변화
대체로 규모가 커질수록 상승하되, 단조 증가가 깨지는 구간이 존재합니다.

- Llama 계열: 8B < 70B로 올라가며 성능이 크게 오르는 전형적 스케일링이 관찰됩니다.
- Gemma 계열: 작은 모델에서 커지면 오르긴 하지만, reasoning 강한 세팅/문항에서 절대값 한계가 상대적으로 빨리 보입니다.
- Qwen 계열: “파라미터”만으로 설명이 안 되는 사례가 나타납니다.
결론적으로는 “MMLU-Pro에서는 ‘크기’도 중요하지만, 어떤 모델인지에 따라서 성능을 좌우하는 비중이 더 커 보인다.”
3) Resoning model에 따른 성능변화
MMLU-Pro의 가장 큰 특징 중 하나가 CoT(Chain-of-Thought)가 유의미하게 성능을 올리는 경향입니다. 논문은 “기존 MMLU와 달리 MMLU-Pro에서는 CoT가 더 도움이 된다”는 점을 강조합니다
4) 한국모델들에 대한 성능비교

LG AI Research에서 공개한 K-EXAONE에 성능이 그림에서 보이는거와 같이 83.8%정도를 차지하는 것으로 보입니다. 이는 현재 1등 GEMINI PRO(90.5%)와는 성능차이가 많이 나지만 상위권 성적으로 랭크가 되었습니다. 그 다음으로는 SK텔레콤과 업스테이지가 각각 2위(약 80프로), 3위(76프로)를 차지했습니다.