[2026-1] 김정운, 김효민 - CritPT (Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark)

[CritPt] Tech Report & Example Challenge & Dataset Link

CritPt - Physics Benchmark

critpt.com

Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

While large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in frontier physics research? And crucially, what k

arxiv.org

Introduction

CritPt의 내용을 다루기에 앞서, Intelligence Index가 무엇인지 간략히 설명하고자 한다. AI 모델은 비용, 효율성, 속도 등 다양한 측면에서 비교될 수 있지만, 그중에서도 성능은 핵심적인 지표로 여겨진다. Intelligence Index는 여러 고난도 벤치마크 점수를 종합하여 모델의 전반적인 추론 및 문제 해결 능력을 평가하기 위해 제안된 지표이다.

Intelligence Index는 막연하게 느껴질 수 있는 AI의 성능을 코딩, 수학, 물리, 장문 추론, 에이전트 작업 등 다양한 영역으로 나누어 확인할 수 있도록 한다. 각 영역별 벤치마크 점수는 정규화 및 가중치 적용을 거쳐 종합 지표로 제시되며, 이를 통해 모델의 강점과 한계를 보다 구체적으로 파악할 수 있다. 이러한 분석은 현재 모델의 성능 수준을 이해하는 데 그치지 않고, 향후 AI 개발 방향성을 논의하는 데에도 참고 자료로 활용될 수 있다.

본 글에서는 Intelligence Index에 포함된 물리학 영역 벤치마크 중 하나인 CritPt에 초점을 맞추어 살펴보고자 한다. 차례대로 데이터셋의 필요성 및 의의와 설계 특징, 평가 방법론, 다양한 AI 모델의 성능 결과, 그리고 데이터셋의 한계점에 대해 다룰 예정이다.

CritPt

CritPt는 "Complex Research using Integrated Thinking – Physics Test" 의 약자로, "Critical Point"라고 발음한다. 2025년 9월 공개된 논문으로, LLMs이 진짜 연구 수준의 물리학 문제를 풀 수 있는지 평가하기 위한 벤치마크 데이터셋이다.

1. 데이터셋의 필요성 및 의의

본 논문은 물리학 연구에서 요구되는 핵심 기준으로 수학적 엄밀성, 창의적 문제 해결 능력, 정밀한 수행, 그리고 이론과 실험의 정합성을 제시한다. 따라서 실제 물리학 연구에 LLM을 활용하기 위해서는 LLM이 위 기준들을 충족하는지 검증할 수 있는 벤치마크가 필요하다고 말한다.

기존 벤치마크에서 LLM은 '연구 관련 문헌 탐색'이나 '여러 분야의 과학 지식 통합'과 같은 과제에서 상당한 성능을 보였으며, reasoning-oriented LLM*의 등장 이후 코딩 문제나 수학 경시대회, 대학원 수준의 구조화된 과제에서도 개선된 추론 능력을 보였다.

※ reasoning-oriented LLM

추론 지향 LLM (reasoning-oriented LLMs)은 복잡하고 단계적인 문제 해결 능력을 향상시키기 위해 특별히 설계 및 최적화된 LLM이다. 이러한 모델은 단순한 정보 검색이나 조합을 넘어, 문제를 여러 단계로 분해하고, 중간 결과를 검증하며, 필요에 따라 외부 도구를 활용하여 AI의 추론 능력을 강화한다.

주로 STEM(과학, 기술, 공학, 수학) 분야의 corpus를 기반으로 fine-tuning되며, Chain-of-Thought 프롬프팅, 강화 학습, tool 사용(코드 실행, 웹 검색) 등을 사용하여 다단계 추론 능력을 향상시킨다. 이를 통해 일반적인 LLM 모델보다 훨씬 더 복잡하고 구조화된 AI 추론 작업을 효과적으로 수행할 수 있다.

그러나, 문헌 탐색이나 지식 통합은 단순히 기존 정보들을 재조합한 것으로 독창적인 추론을 수행했다고 보기는 어렵다. reasoning-oriented LLM의 성과 또한 잘 정의되고 해답 공간이 비교적 밀집된 문제에 국한되어 있으며, 실제 연구 맥락처럼 범위가 넓고 해답 공간이 희소한 문제에서는 성능이 급격히 저하되는 한계를 보였다.

이처럼 기존의 벤치마크에서는 앞서 언급했던 물리학 연구에서 필요로 하는 핵심 기준들을 제대로 검증하지 못하고 있음을 확인할 수 있다. 이러한 맥락에서 연구진은 물리학 연구의 최전선에서 LLM이 유의미하게 물리학자들의 추론작업을 도울 수 있는지를 평가하기 위한 벤치마크인 CritPt를 제안한다.

CritPt의 주요 평가는 다음과 같은 핵심 질문들을 중심으로 이루어진다.

LLM이 자신의 훈련 데이터를 넘어, 훈련 과정에서 접하지 못한 물리학 연구 문제를 해결할 수 있는가?
→ 연구의 목적은 이미 알려진 문제를 반복해서 푸는 것이 아니라, 새로운 발견에 도달하는 데 있다. 물론 거대한 미해결 문제는 당장 검증하기도 어렵고 접근하기도 쉽지 않다. 그러나 기본 개념과 방법은 알려져 있으면서도, 이를 이를 단순 적용이 아닌 비자명한 방식으로 종합하고 창의적으로 추론해야만 완전한 해답에 도달할 수 있는 초기 연구 수준의 문제들이 존재한다. LLM이 이처럼 훈련 데이터에 포함되지 않은 새로운 연구 문제를 해결할 수 있을지 검증하고자 한다.
오늘날의 현실적인 물리학 연구 워크플로우에서 LLM은 어떤 추론 과제를 도울 수 있는가?
→ 하나의 연구 프로젝트는 처음부터 끝까지 한 번에 해결되는 것이 아니라, 여러 단계로 나뉘어 진행된다. 복잡한 문제는 작은 하위 과제로 분해되거나, 단순화된 형태로 먼저 다루어질 수 있다. 실제 연구 협업 환경에서는 이러한 모듈형 과제들이 연구자들 사이에 분담되기도 한다. LLM이 이러한 연구 과정의 개별 단계에서 어떤 유형의 추론 작업을 실질적으로 보조할 수 있는지를 탐색하고자 한다.
물리학 연구 맥락에서 LLM의 추론 과정과 응답을 신뢰할 수 있는가?
→ 물리학의 개념과 방법론은 상황에 따라 달라지는 가정과 맥락에 깊이 의존한다. 겉보기에 그럴듯한 답변이라도, 작은 가정의 오류나 미묘한 계산 실수 하나가 전체 결론을 왜곡할 수 있다. 특히 전문적인 판단 없이 LLM의 답변을 받아들일 경우 이러한 위험은 더 커진다. 고급 물리학의 복잡하고 구조화되지 않은 문제—특히 모델의 능력 한계에 가까운 문제—를 다룰 때, LLM의 추론 과정과 결과를 어느 정도까지 신뢰할 수 있을지 평가하고자 한다.

그러나 위와 같은 목표를 충족하는 벤치마크를 설계하는 데는 상당한 실질적, 기술적 장애물이 따른다. 이에 연구진은 주요 장애물을 해결하기 위해 다음과 같은 설계 기능을 고안했다.

물리학 전문가에 의해 표준화된 최전선 연구 문제
→ 기존 물리학 분야의 텍스트북형 벤치마크에서는 복잡하고 개방적인 추론 능력 평가가 간과되었다. 이에 CritPt는 AI 연구자들과 물리학 분야 전문가들 간의 협업을 통해, 물리학적 관점에서는 현실적인 추론 과제를 충분히 반영할 수 있도록, LLM 개발의 관점에서는 실용적인 통찰을 제공할 수 있도록 구성하었다.
데이터 누출에 강하고 추론 중심으로 설계된 구조
→ 공개 자료를 바탕으로 생성된 벤치마크는, 해당 자료가 모델의 훈련 데이터에 포함되었을 가능성 때문에 오염(contamination)에 취약하다. 이를 방지하기 위해 CritPt는 물리학 전문가가 모든 문제를 손수 제작하였다.
→ 추론을 통한 풀이를 보장하기 위해 모든 문제는 명확히 정의되고 자기완결적*이며 search-proof*하게 구성한다. 또한, 객관식처럼 정답 후보를 좁히는 형식을 피해 open-ended* 형식을 채택하면서도, 최종 정답은 부동소수점 배열이나 복잡한 기호 표현과 같이 추측이 어렵도록 설계하여 깊은 추론과 계산을 통해서만 정답에 도달할 수 있도록 하였다.
→ 또한 벤치마크의 신뢰성 유지를 위해 하나의 예시문제를 제외한 70개의 문항은 모두 비공개로 유지한다.
물리학에 기반한 확장 가능한 자동 채점 파이프라인
→ 물리학 문제를 채점하는 일은 단계 검증, 대안 경로를 검증, 미묘한 허점 탐지 등에 많은 자원이 요구된다. 또한 LLM 기반 채점 방식은 프롬프트 표현이나 답안 형식과 같은 표면적 요소에 민감하며, 특히 judge 모델의 성능을 넘어서는 내용 평가 시 문제가 발생할 수 있다. 이에 CritPt는 LLM의 답을 기계가 직접 계산, 실행, 기호 비교를 통해 자동으로 채점하도록 설계하여, 고급 물리학 문제에서도 확장 가능하고 신뢰도 높은 평가를 가능하게 했다.

※ 용어 설명
∘ 자기완결적(self-contained) = 문제를 푸는 데 필요한 정보가 문제 안에 모두 들어 있는 형태
∘ search-proof = 인터넷 검색이나 훈련 데이터 암기로는 바로 찾을 수 없는 형태
∘ open-ended = 답의 형식에 제한을 두지 않은 형태

2. 데이터셋 구축 방법론

1) 데이터셋 예시

CritPt는 주니어 연구자 수준에서 다룰 수 있는 연구형 문제로 구성된다. 앞서 말했듯 벤치마크의 신뢰성 유지를 위해 CritPt는 71개 중 1개의 예시 문제만 공개하고 있다. 논문에서는 “Quantum Error Detection”라는 예시 문제를 통해, 하나의 완전한 CritPt 챌린지의 구조와 설계 방식을 설명한다.

CritPt에서 1개의 문제(챌린지)는 'setup + challenge question + 2~4개의 checkpoint 질문'으로 구성된다. setup에서는 문제 풀이에 필요한 배경지식과 맥락을 제공하며, challenge question에서는 핵심 연구 질문을 제시한다. challenge question 자체를 해결하지 못하더라도, 보조자 역할로서의 잠재력을 확인할 수 있도록 각 챌린지를 분해하여 2~4개의 checkpoint 질문을 구성한다. checkpoint 질문에는 긴 유도 과정에서 중간 단계를 완성하도록 하거나, 전체 과제의 단순화된 버전(eg. 고차원 문제를 다루기 전에 1차원 사례를 먼저 해결하는 경우)을 풀도록 하거나, 특수한 경우(eg. 고온 극한에서의 거동)를 분석하도록 하는 과제가 포함될 수 있다.

이러한 구성을 통해 실제 연구 워크플로우의 깊이와 복잡성을 반영하면서도, LLM이 연구 과정에서 어떤 방식으로 유의미한 보조 역할을 수행할 수 있는지 분석할 수 있다.

다음은 논문에 나와있는 "Quantam Error Detection" 문제이다. Setup과 Challenge question, Answer 및 3개의 Checkpoint로 구성되어 있으며, 해당 문제의 세부적인 설계 아이디어는 논문의 Appendix(A.5)에서 확인할 수 있다.

물리학 배경 지식이 없는 사람도 대강의 내용을 이해할 수 있도록 문제에 대한 추상적인 설명을 덧붙인다.

※ Quantum Error Detection 문제에 대한 보충 설명

양자 컴퓨터는 매우 강력한 계산 잠재력을 지니고 있지만, 동시에 작은 노이즈에도 쉽게 영향을 받는다. 이러한 취약성을 극복하고자 연구자들은 여러 개의 실제 큐비트(물리적 비트)를 묶어 더 안정적인 ‘논리적 비트’를 구성하는 방법을 고안해왔다. 이것이 바로 양자 오류 정정(Quantum Error Correction, QEC)의 기본 아이디어이다.

Quantum Error Detection 문제는 이와 같은 양자 오류 정정(QEC) 아이디어 중 하나인 '오류 탐지 코드'를 대상으로, 그 코드가 실제로 얼마나 도움이 되는지를 정량적으로 분석하는 문제이다.

setup에서는 특정한 오류 탐지 방식과 그 작동 원리가 제시된다. 필요한 배경 지식과 가정, 구조가 설명되고, 우리가 분석해야 할 목표가 명확히 설정된다. 이후 challenge question에서는 해당 오류 탐지 방식이 실제로 얼마나 효과적인지를 묻는다. 구체적으로는 잡음이 존재하는 상황에서 우리가 준비한 논리적 상태가 얼마나 손상되는지를 계산해야 한다. 여기서 중요한 점은 단순히 정답을 맞히는 것이 아니라, 오류의 영향을 수치적으로 분석하고 그 효과를 비교해야 한다는 것이다.

문제는 점진적으로 난이도가 높아지는 세 개의 checkpoints로 분해된다. 첫 번째 checkpoint에서는 오류 정정을 적용하지 않은 상태에서 기본적인 손상 정도를 계산한다. 두 번째 checkpoint에서는 오류 탐지 코드를 적용했을 때 손상이 얼마나 줄어드는지를 분석한다. 여기서는 물리적 오류와 논리적 오류를 비교하게 되며, 오류 탐지 코드가 제대로 작동한다면 논리적 오류가 더 작아야 한다. 마지막 checkpoint에서는 한층 복잡한 상황을 다룬다. 상태 준비 과정이 더 정교해지고, 오류가 회로를 통해 전파되는 방식까지 고려해야 하며, 단순 계산이 아니라 시뮬레이션과 알고리즘 구현이 필요해진다.

위 문제를 해결하기 위해서는 오류가 어떻게 퍼지는지를 구조적으로 이해하고, 여러 경우의 수를 체계적으로 계산하며, 보호 장치의 효과를 정량적으로 비교 분석할 수 있어야 한다. 즉, 단순한 공식 대입이 아니라 연구 맥락에서 요구되는 복합적 추론 능력을 검증하는 데 초점이 맞추어져 있다고 볼 수 있다.

2) 데이터셋의 출처 및 범위

CritPt 데이터셋은 입문 수준의 전체 규모 연구 프로젝트를 시뮬레이션하기 위한 71개의 복잡하고 종합적인 과제와, 세분화된 통찰력을 제공하기 위해 전체 과제에서 분해된 190개의 모듈식 체크포인트로 구성되어 있다. (과제의 세부 주제는 Appendix(A.1)에서 확인할 수 있다.)

본 데이터셋은 전 세계 30개 기관에 소속된 50명 이상의 물리학 연구자들과의 대규모 협업을 통해 구축되었기에, 다양한 학문 분야, 주제 및 연구 스타일을 아우르는 폭넓은 구성을 갖출 수 있었다. 또한 연구자들이 실제 연구 과정에서 마주하는 문제들을 바탕으로 문제를 설계하였기에 현실적인 연구의 깊이를 반영하여 문제를 구성할 수 있었다.

위 표는 CritPt에서 다루는 물리학 연구 분야에 관한 통계를 담고 있다. 응집물질물리학, 양자정보 과학 및 기술, 원자·분자·광학 물리학, 고에너지 물리학, 수리물리학 등 현대 물리학 전반을 폭넓게 다루고 있음을 확인할 수 있다. 표의 아랫부분의 'Covering Multiple Areas'는 두 개 또는 그 이상의 물리학 분야를 동시에 아우르는 문제라는 의미로, 물리학 분야에서의 다학제적 연구 흐름의 확대가 반영되어 절반에 가까운 문제가 Multiple Areas를 다루고 있음을 알 수 있다.

위 Figure는 CritPt 데이터셋이 어떤 유형의 물리학 연구를 얼마나 포함하고 있는지를 보여주는 Pie 차트로, 왼쪽은 challenge(전체 문제 단위)의 분포도이고, 오른쪽은 checkpoint(문제를 세분화한 하위 추론 단계)의 분포도이다. 이를 통해 CritPt가 '이론적 접근', '실험적 접근', '계산 및 시뮬레이션 기반 접근' 등 실제 물리 연구에서 등장하는 세 가지 연구 방식을 모두 다루고 있음을 확인할 수 있다. 또한 실제 현대 물리 연구의 비중을 닮아 CritPt에서도 이론적 접근이 가장 큰 비중을 차지하고 있다.

CritPt의 일부 문제들은 논문에 실릴 법한 완성된 연구 질문들이 아닌 실패한 실험, 번거로운 중간 계산, 논문에 거의 기록되지 않는 미묘한 통찰과 같은 연구에서 영감을 받아 제작되기도 했다. 이러한 내부자(insider) 요소들은 덜 주목받지만 실제 연구에서 매우 중요한 요소들로, 연구진들은 AI가 이를 안정적으로 해결하면 과학 연구에 실질적으로 큰 도움이 될 수 있을 것이라고 보았다.

3) 벤치마크 설계 기준

본질적으로 비정형적인 연구 수준 문제들을 진정한 추론 능력을 정확히 측정하면서도 확장 가능한 평가가 가능하도록 벤치마크 형식으로 표준화하고자 연구진들은 다음과 같은 기술적 기준을 정의하였다.

검색으로는 답을 찾을 수 없지만, 해결은 가능한 문제 (Search-proof but solvable)
→ 모든 문제는 새롭게 제작하며, 웹 검색을 통해 최종 답을 그대로 찾아낼 수 없도록 설계하고, 공개적으로 알려진 지식만으로 해결 가능하도록 구성하며, 모호하지 않은 제약 조건과 검증 가능한 최종 답을 갖도록 정의한다. 이러한 문제를 해결하기 위해서는 물리적 상황에 대한 깊은 이해, 일관된 가정 하에서의 올바른 방법 적용, 그리고 정밀한 다단계 추론 및 계산 수행 능력이 요구된다.
→ 이렇게 구성된 문제는 주로 다음 세 가지 범주에 속한다. (1) 기존에 발표된 결과를 수정한 버전: 분포 밖 일반화를 테스트하며, 기존 연구를 바탕으로 후속 프로젝트를 수행하는 현실적 연구 상황 (2) 특정 물리 시스템에 대한 비자명한 방법 적용: 서로 다른 물리적 제약 조건 하에서 방법을 이해하고 활용하는 능력을 평가 (3) 논문에 명시적으로 제시되지 않은 계산의 비자명한 중간 단계: 발표된 결과를 재현하고, 맥락 속 빈틈을 메울 만큼 충분히 이해하고 있는지를 평가. 이러한 과정은 향후 논문에 등장할 가능성은 낮지만, 실제 연구 활동에서는 빈번히 발생하는 작업이다.
검증 가능한 정답을 갖는 개방형 Q&A 형식 (Open-ended Q&A format with verifiable answers)
→ CritPt에서는 다양한 답안 형식을 허용하는 개방형 문제 형식을 채택한다. 대부분의 답은 수치값이나 기호식이며 표준화된 채점을 위해 모든 기호, 표기법, 물리 단위는 문제에 명시적으로 제공된다. 만약 답안 표현이 SymPy*로 신뢰성 있게 조작하기에 너무 복잡하거나, 동치 형태가 지나치게 많을 경우에는, 모델이 Python 함수를 답으로 반환하도록 요구하고 이를 테스트 케이스*로 평가한다.
→ 드물게 이진 또는 범주형 답(eg. “Yes/No”)이 필요한 경우에는, 하나의 질문 대신 관련된 여러 질문 세트를 구성하고, 모든 질문에 대해 정확히 답했을 때만 정답으로 인정한다.
물리학 특성에 맞춘 추측 방지 설계 (Guess-resistant construction tailored for physics contents)
→ 물리학 결과는 종종 0, 1/2, π와 같은 흔히 등장하는 값으로 귀결되는 경향이 있다. 또한 응집물질물리학에서는, 시스템이 매우 복잡하더라도 서로 다른 미시적 구조를 가진 시스템들이 동일한 위상수와 같은 보편적 물리량을 공유하는 경우가 많다. 같은 값들에 대한 추측 위험을 줄이고자, CritPt에서는 물리 시스템과 질문할 물리량을 신중히 선택하여 모델이 의도된 물리적 추론 과정을 따르지 않으면 정답에 도달할 수 없도록 한다.
→ 이를 위해 각 문제의 최종 답은 일반적으로 복잡한 형태의 비보편적 물리량(eg. 소수점 여러 자리의 부동소수점 수, 큰 정수, 차원에 의존하는 기호식 등 )을 최소 하나 이상 포함한다.

이러한 설계 기준은 SciCode, FrontierMath, TPBench에서 부분적으로 영감을 받았다고 한다.

※ 용어 설명
∘ SymPy = Python에서 사용하는 기호 수학(symbolic mathematics) 라이브러리로, 수식을 단순화하거나 두 수식이 수학적으로 동등한지 판단하는 등, 수식 자체를 다루는 계산기이다. 예를 들어 SymPy는 아래의 두 식을 자동으로 비교해서 형태는 다르지만 같은 식이라고 판정할 수 있다.
∘ 테스트 케이스 = 모델이 반환한 Python 함수가 실제로 올바르게 작동하는지 직접 실행하여 확인하기 위한 입출력값 세트이다.

4) 데이터셋 품질 관리

CritPt의 모든 문제는 제작 및 다단계 검토 절차를 반복적으로 거쳐 만들어진다. 모든 데이터 제작자, 벤치마크 코디네이터, 문제 검토자, 과학 글쓰기 담당자는 물리학 박사 학위를 보유하고 있거나, 현직 박사과정 연구자이다. 데이터 수집은 아래의 절차를 따른다.

초기 제작 (Initial creation)
→ 코디네이터는 먼저 각 물리학 전문가 출제자에게 LLM과 벤치마크 설계 기준을 충분히 소개한다. 이후 전문가들은 문제를 제작한다. 각 문제에는 일반 학술 논문보다도 더 상세한 해설이 포함되는 경우가 많으며, 단계별 풀이, 대수적 유도 과정, 수치 계산 코드, 보조 데이터, 참고문헌, 대안 풀이 등이 포함된다.
반복 수정 (Iterative revision)
→ 초안을 바탕으로 전문가와 코디네이터가 반복적인 검토 과정을 가진다. 최소 3회 이상, 복잡한 경우에는 최대 10회까지 진행된다. AI 연구자와 물리학 전문가들은 함께 LLM의 응답을 분석하여, 모델의 성능이 형식적 오류, 모호한 프롬프트, 또는 미묘한 허점에 의해서가 아닌 실제 도메인 관련 추론 능력을 바탕으로 평가되는지 확인한다. 또한 체리피킹(cherry-picking)*을 피함으로써, 벤치마크의 공정한 비교를 도모한다.
전문가 검토 (Expert review)
→ 반복 검토가 끝난 후, 각 문제는 peer review를 받는다. 또한 기술적 유도 과정과 대수적 단계는 추가로 물리학 전문가들에 의해 검증된다. 최종 원고는 과학 글쓰기 전문가의 편집을 거친다.

평균적으로 CritPt의 하나의 완전한 챌린지를 제작하는 데에는 40시간 이상이 소요되었다고 한다. 데이터 구축 과정에서 LLM에 접근하여 벤치마크를 직접 실험해보도록 장려되었으며, 모델의 성능, 한계, 행동 양상에 대한 직접적인 관찰이 벤치마크 설계를 크게 발전시켰다고 한다. 그 결과, CritPt는 물리학자들의 현실적인 추론 요구를 반영할 뿐만 아니라, 고급 물리학 배경 지식이 없는 AI 개발자들에게도 실질적인 피드백을 제공할 수 있는 벤치마크가 되었다.

※ 용어 설명
∘ 체리피킹(cherry-picking) = 자신에게 유리한 사례만 선택하고, 불리한 사례는 제외하는 행위를 말한다. 위 맥락에서는 특정 모델의 특이한 행동이나 일시적 성능 패턴에 맞춰 문제를 설계하거나 수정하여 성능을 조정하는 행위로 해석할 수 있다.

3. 데이터셋 평가 방법론

CritPt에서는 구조화된 2단계 답안 생성 방식과 자동 채점 시스템으로 이루어진 자동 평가 프레임워크를 구현하였다. 이 프레임워크의 평가는 굉장히 엄밀하며, 다양한 출력 형식으로의 확장성을 가진다.

위 Figure는 CritPt의 2단계 답안 생성 방식과 자동 채점 시스템 전체 구조를 보여주는 도식으로, 크게 왼쪽의 생성 방식과 오른쪽의 채점 시스템으로 나눠서 살펴볼 수 있다.

1) 모델의 2단계 답안 생성 방식 (Two-step answer generation from models)

Figure 2의 왼쪽 부분에서 확인할 수 있듯이, CritPt에서는 두 단계에 걸쳐 답안을 생성할 수 있도록 한다.

[Appendix.2] 2단계 답안 생성 방식 중 첫 번째 답안 생성을 위한 프롬프트

위 프롬프트는 두 단계의 답안 생성 과정 중 첫 번째 단계 답안 생성을 위한 프롬프트이다. 프롬프트에서 확인할 수 있듯이, 첫번째 단계에서 모델은 step-by-step으로 자유롭게 풀이를 생성한다. 위 단계에서는 자연어 설명과 수학적 전개를 포함한 완전한 풀이를 생성하도록 프롬프트되며, 출력 형식 템플릿의 제약이 없다.

[Appendix.2] 2단계 답안 생성 방식 중 두 번째 답안 생성을 위한 프롬프트

위 프롬프트는 두 단계의 답안 생성 과정 중 두 번째 단계 답안 생성을 위한 프롬프트이다. 해당 프롬프트는 모델이 첫번째 단계에서 생성한 답안을 지정된 Python 함수 형식으로 정리할 수 있도록 유도한다. 추후 채점이 용이하도록 파싱이 잘되는 구조의 코드로 변환될 수 있도록 한다.

CritPt에서는 이와 같이 자유로운 추론과 최종 답안 형식화 과정을 분리하여, 중간 단계에서의 이른 형식 변환 (eg. SymPy를 통한 자동 변환)으로 인한 답변 왜곡과, 모델의 서로 다른 출력 스타일로 인한 파싱 오류를 방지하였다. 이는 이후 단계인 채점 자동화를 가능하게 했다.

2) 자동 채점 시스템 (Auto-grading system)

Figure 2의 오른쪽 부분에서 확인할 수 있듯이, CritPt는 자동 채점 시스템을 가지고 있다.

자동 채점 시스템으로 넘어가기 전에 앞서, 생성된 Python 코드 블록을 파싱하여 최종 정답을 추출한다. 그 다음, 추출된 모델의 답 함수와 물리학 전문가가 제공한 정답(gold answer)을 채점 시스템을 통해 서로 비교한다. Figure 2의 오른쪽 부분에서 볼 수 있듯이 CritPt의 채점 시스템은 다음과 같은 세 가지 유형의 답안에 대한 평가 로직을 지원한다.

수치형 정답 (Numerical values) = 정답 형태가 숫자인 경우
→ 물리학에서는 부동소수점 오차가 자연스럽기 때문에 허용 오차 범위 안에 있으면 정답으로 인정한다.
기호식 정답 (Symbolic expressions) = 정답 형태가 수식인 경우
→ SymPy를 사용하여 두 수식이 수학적으로 동등한지 비교한다. 수식의 형태가 달라도 의미가 같으면 정답 처리한다.
Python 코드 정답 (Python codes) = 정답 형태가 실행 가능한 Python 함수인 경우
→ 여러 테스트 케이스를 실행하여 결과를 비교하며, 모든 테스트 케이스를 통과한 경우에만 정답으로 인정된다.

복합적인 답안(eg. 튜플이나 딕셔너리 형태의 결과)의 경우에는 요소별로 채점을 수행하며, 모든 구성 요소가 전문가의 정답과 일치해야만 정답으로 인정된다.

실행의 안전성과 격리를 보장하기 위해, 각 답안은 샌드박스 환경*에서 실행된다. 또한 메모리 사용량 등 자원 사용을 제한하여 무한 루프나 과도한 메모리 할당과 같은 비정상적인 작동을 방지한다.

※ 용어 설명
∘ 샌드박스 환경 = 소프트웨어, 코드, 또는 신기술을 실제 운영 시스템과 완전히 분리하여 안전하게 테스트할 수 있는 격리된 공간을 말한다. 외부 시스템에 영향을 주지 않고 실험, 디버깅, 검증을 수행하여 시스템 보안과 안정성을 확보하는 것이 주 목적이다.

4. 벤치마크 모델 성적 및 모델의 한계점

CritPt는 위 Table 2에 나온 10개의 SOTA 모델을 평가하여, 서론에서 제시한 세 가지 연구 질문에 답하였다. 평가는 각각 Challenge 수준과 Checkpoint 수준에서 이루어졌으며, 모델의 확률적 변동성(stochasticity)을 고려하여 5번의 실험을 수행한 후 average accuracy를 계산하여 지표로 삼았다.

Table 3은 CritPt에 대한 평가 결과를 종합적으로 요약한 표이다. 결과에 대한 구체적인 분석은 이어지는 글에서 다루었다.

1) Challenge-level 평가 : LLM은 보지 못한 문제를 해결할 수 있는가?

실제 연구와 유사하세 end-to-end 추론 능력을 시험할 수 있는 challenges 수준의 모델 성능 평가 결과를 함께 살펴보자.

Figure 3의 Main plot에서 확인할 수 있듯, 모든 모델이 매우 낮은 점수를 기록했다. 외부 도구를 사용하지 않는 기본 모델 중에서는 GPT-5(high)가 5.7%로 가장 높은 성능을 보였으며, 다른 모델들은 모두 0~2% 수준에 머물렀다.

도구 사용은 작지만 의미 있는 개선을 만들었다. 코드 인터프리터에 접근할 수 있을 때 GPT-5(high, code)의 성능은 10.6%로 눈에 띄게 향상되었다. 논문에서는 이러한 현상이 현대 물리학 연구에서의 계산 도구의 중요성에 대응한다고 말했다.

반면, 웹 검색을 추가했을 때에는 12.6%로 소폭 상승했는데, 이는 CritPt의 검색 저항적(search-proof) 설계가 단순 정보 검색을 통한 지름길을 효과적으로 차단함을 보여준다.

Inset a는 각 모델의 실행(run)당 사용한 토큰 수를 보여준다. 여기에는 모델의 내부 추론 과정 뿐 아니라 웹 검색을 통해 가져온 대량의 콘텐츠까지 모두 포함된다. 그래프를 보면 일반 채팅 모델들은 비교적 적은 토큰을 사용하며 정확도가 0%에 가깝고, 추론 지향 모델들은 훨씬 많은 토큰을 사용하며 긴 추론 과정을 거치고 장황한 출력을 생성한다. 그러나 대규모 토큰 소비에도 전체 정확도는 낮은 수준에 머물렀다. 이는 긴 컨텍스트 창과 많은 계산 자원이 추론 문제 해결의 필요 조건일 수는 있지만 충분 조건은 아니라는 점을 시사한다.

Inset b는 CritPt 과제에 대한 실행당 평균 비용을 보여주는데, 이는 총 토큰 사용량과 각 모델 제공자의 API 가격에 기반하여 계산되었다. Claude Opus 4의 경우 토큰당 요금이 비싸서 적은 토큰 사용량에도 큰 비용이 들었고, DeepSeek R1은 토큰당 요금이 낮아 많은 토큰 사용량에도 비교적 적은 금액이 사용되었음을 알 수 있다. Inset a와 b를 함께 보면, 고성능 모델의 많은 토큰 소비는 자연스럽게 비용 상승으로 이어지지만, 성능 향상은 그에 비해 불균형적으로 작게 이루어짐을 확인할 수 있다. 이는 과학 분야처럼 해의 공간이 희소하고 무차별 탐색(brute-force exploration)이 효과적이지 않은 영역에서, 단순히 더 많은 계산 자원을 투입하는 전략은 비효율적이며, 근본적인 추론 구조의 개선이 필요함을 시사한다.

요약하자면, 논문에서는 현재 LLM은 보지 못한 물리학 연구 문제(=challenge 수준의 문제)를 주니어 연구자 수준에서 해결하기에는 어려우며, 외부 도구 사용이나 자원의 무한한 투자 또한 근본적인 해결 방법이 될 수 없다고 말하고 있다. 또한 SOTA 모델들의 성능이 낮은 것으로 미루어보아 CritPt와 같은 현실적인 벤치마크가 추후 상당 기간 동안 유의미한 평가 도구로 기능할 수 있을 것으로 보인다고 말한다.

2) Checkpoint-level 평가 : LLM은 당장 어떤 작은 과업을 도울 수 있는가?

모델의 능력과 실패 양상을 더 세밀하게 분석하기 위해, 각 CritPt 챌린지 문제는 2–4개의 체크포인트 질문으로 분해된다. 이러한 체크포인트 질문의 평가는 multi-turn 대화 형식으로 진행되며, 문제를 해결하는 과정에서 연구자가 보조 시스템(LLM)과 자연스럽게 상호작용하는 상황을 모사한다.

체크포인트 수준의 평가는 전문가의 정답 제공 여부를 달리하여 두 번 진행된다.

Self-carryover (Fig. 4a - 전문가의 정답 없이)
→ 모델은 이전 단계에서 자신이 생성한 출력만을 사용하여 순차적으로 진행한다. 이 설정은 전체 문제가 분해 가능하더라도, 중간 결과가 불확실하며 오류가 누적·전파될 수 있는 현실적인 연구 상황을 반영한다.
Oracle carryover (Fig. 4b - 전문가가 이전 체크포인트의 정답을 제공)
→ 모델은 다음 체크포인트로 넘어가기 전에 이전 단계에 대해 전문가의 정답(ground-truth)을 제공받는다. 이는 상류 단계의 오류 영향을 제거하여 개별 과업(local task)의 성능을 평가하거나, 모델이 올바른 중간 결과를 힌트로 효과적으로 활용할 수 있는지를 테스트하기 위한 설정이다.

위의 Figure 5에서 Self-carryover에서의 성능(실선 막대)과 Oracle-carryover에서의 성능(빗금 막대)을 함께 확인해볼 수 있다. 전반적으로 LLM들은 챌린지 수준의 문제보다는 문제의 범위가 비교적 국소적이고 명확한 체크포인트 수준의 문제에서 더 빠르게 가능성을 보였다.

self-carryover 설정에서 기본 GPT-5(high)는 15.3%를 기록했으며, 코드 인터프리터를 사용할 경우 20.0%로, 웹 검색까지 사용할 경우 21.4%로 상승했다. GPT-5(high)의 뒤로 Gemini 2.5 Pro (8.1%), o3 (high) (7.4%), o4-mini (high) (5.6%), DeepSeek R1 (5.1%), Gemini 2.5 Flash (4.1%) 순으로 높은 성능을 기록했다.

대부분의 모델이 oracle-carryover 설정에서 성능 개선을 보였다. 특히 GPT-5 계열과 o3(high)는 oracle-carryover 설정에서 성능이 3% 이상 향상되었으며, 이는 올바른 중간 결과를 활용하면 이후 추론을 개선할 수 있음을 시사한다.

CritPt의 체크포인트는 여전히 어려운 과제로 남아 있지만, 논문에 따르면 차세대 선도 모델들이 개선을 보이는 영역에 속하는 것으로 보인다. 또한 논문에는 실제 물리학자들, 특히 이론 물리학자들은 연구 과정에서 LLM을 조심스럽게 도입하기 시작했으며, 작고 명확한 추론 과제에서는 때때로 유용한 답을 얻기도 한다는 언급이 있다. 그러나 대부분의 출력은 완전히 정확하지 않아, 전문가가 그 타당성을 일일이 검증해야 하며, 이 과정이 오히려 직접 문제를 푸는 것보다 더 많은 시간을 요구하기도 한다고 한다.

3) 신뢰성 지표 : LLM의 출력을 신뢰할 수 있는가?

CritPt는 모델이 보여주는 성능을 신뢰할 수 있는지 분석하기 위해, 보다 엄격한 성능 지표를 도입한다. 하나의 문제에 대해 5번의 실험 중 최소 4번 이상 올바른 답을 제시할 때에만 일관되게 해결(consistently solved)된 것으로 간주한다.

이 기준을 적용하면 앞선 실험들 대비 모든 모델에서 성능이 급격히 하락하는데, 이는 복잡한 물리학 연구 맥락에서 모델 행동의 확률적 변동성 (stochastic)이 매우 높다는 점을 시사한다.

Inset a는 챌린지 수준에서 일관된 문제 해결 성능을 평가한 결과이다. 여기서는 GPT-5(high)만이 일관된 문제 해결 성능을 보였다. 기본 GPT-5(high)은 단 4.3%(70개 중 3개 문제)에 불과했으며. 도구를 사용할 경우 이 수치는 8.6%(high, code) 및 10.0%(high, code & web)로 향상되지만 여전히 낮은 수치이다. 다른 모든 추론 중심 모델들은 이 기준에서 성능이 0으로 떨어졌다.

Inset b는 체크포인트 수준 에서 일관된 문제 해결 성능을 평가한 결과이다. Inset a에서처럼 SOTA 모델들임에도 굉장히 적은 수의 문제만을 일관되게 해결할 수 있었다.

이러한 결과는 현재의 LLM이 소규모 하위 과제를 탐색하거나 문제 해결의 기초를 구성하는 데에는 유용할 수 있으나, 일관된 정답을 요하는 high-stakes 연구에서는 사용하기 어려우며 따라서 uncertainty calibration*과, 강력한 외부 검증 기법 등에 대한 연구가 여전히 필요함을 시사한다.

※ 용어 설명
∘ uncertainty calibration = 모델의 확신 수준이 실제 모델의 정확도와 일치하도록 보정하는 것

4) 모델 답변에 대한 구체적인 분석

CritPt에서는 단순히 집계 정확도(aggregated accuracy) 지표를 살피는 것을 넘어, 개별 챌린지 수준에서 모델의 행동을 분석하여 질적인 통찰을 도출해냈다.

"quantum error detection" 문제에 대한 모델 별 성능 분석표

CritPt는 연구 과정에서 전문가들과의 효율적인 검토를 위해 interative 시각화 플랫폼을 개발하여 사용하였다 (데모 - critpt.com/example). 이 도구를 통해 전문가들은 모델 응답을 빠르게 분석하고, 과제 유형과 모델 계열 간 성능을 체계적으로 비교하며, 오류 패턴이나 흥미로운 행동 양상을 식별할 수 있었다. 또한 비(非) AI 연구자들도 대규모로 LLM 출력 결과를 보다 쉽게 활용할 수 있어서 피드백 제공이 용이했다. (예시 챌린지에 대한 전문가의 상세 피드백은 A.5.2에서 확인할 수 있다.)

Table 4는 "quantum error detection" 예시 챌린지의 시각화로, 예상치 못한 행동을 즉시 관찰할 수 있다. 예를 들어 GPT-5(high, code)에 web을 추가했을 때, 오히려 모델 성능이 저하되는 현상이 나타났다. 모델 응답에서 또한 흥미로운 사실을 관찰할 수 있었다. GPT-5(high)가 전문가의 기대와는 다른 방식으로 도구를 호출하는 경향이 있다는 점이다. 예를 들어, 해석적 풀이가 더 간단한 상황에서 코드 실행을 사용하거나, 관련성을 평가하기 전에 과도한 웹 검색을 수행하는 경우가 있었다. 이러한 행동은 현재 LLM의 의사결정 휴리스틱*과 인간 전문가의 직관 사이에 간극이 존재함을 보여준다.

LLM의 다양한 유형의 물리학 연구 문제에서 나타나는 실패 사례와 새롭게 나타나는(emergent) 추론 행동에 대해 폭넓은 분석이 진행 중이며, 추후 논문에서 보고될 예정이라고 한다.

※ 용어 설명
∘ 휴리스틱 = 문제 해결 과정에서 도구 사용과 전략을 결정할 때 따르는 내부적 판단 규칙

5. 최신 벤치마크 성적

아래의 링크에서 모델들의 최신 벤치마크 성능을 확인할 수 있다. 본 글에서 언급하는 성능은 2026년 2월 시점의 성능이다.

CritPt Benchmark Leaderboard | Artificial Analysis

Compare AI model performance on CritPt Benchmark Leaderboard. A benchmark designed to test LLMs on research-level physics reasoning tasks, featuring 71 composite research challenges.

artificialanalysis.ai

1) Frontier 모델 간 비교

GPT: GPT의 경우 버전이 높을수록 성능이 좋은 경향이 있으나, GPT-5의 성능이 GPT-5.1보다 높게 나왔다.
Claude: Claude의 경우 Opus > Sonnet > Haiku로 성능의 순서가 매겨지고, 같은 모델의 경우 non-reasoning 모델보다 reasoning 모델의 점수가 더 높았다.
Grok의 경우 Grok4 Fast > Grok4으로 Grok4 Fast가 Grok4보다 점수가 더 높게 나왔다.
Gemma의 경우 Pro > Flash로 결과가 Pro가 높았고, Flash 버전 사이에서 reasoning 모델이 더 높은 점수를 얻었다.

2) 한국 모델 간 비교

Model	Developer	Result
K-EXAONE(Reasoning)	LG AI Research	1.1%
Mi:dm	KT	0.0%
HyperCLOVA X	Naver	0.0%
Solar	Upstage	0.0%

한국에서 개발된 모델들 중에서는 유일하게 K-EXAONE 모델만 1.1%로 유의미한 성능을 보였으며, 나머지는 0.0%의 결과를 기록했다.

위의 4개의 모델 외에도 추가로 K-EXAONE 계열 모델 5개, Mi:dm 계열 2개, Solar 계열 3개에 대한 평가 결과가 있었으나, 모두 0.0%의 성능을 보였기에 생략하고 각 계열별 대표 모델만 가져왔다.

3) Qwen 모델의 사이즈에 따른 성능 비교

Model	Number of Parameter		Result
Model	Active Parameters	Passive Parameters	Result
Qwen3 Max Thinking	--	--	1.7%
Qwen3 Max(Preview)	--	--	0.9%
Qwen3 VL 8B	9B	0B	0.3%
Qwen3 30B A3B 2507	3B	27B	0.3%
Qwen3 32B	33B	0B	0.3%

(Qwen3 Max Thinking과 Qwen3 Max는 파라미터 정보가 없기에 기입하지 않았다.)

총 43개의 Qwen 계열 모델 중 위 표에 등장한 5개의 모델에서 0.0% 이상의 결과를 보여주었으며 나머지 모델에서는 0.0%의 성능을 보였다.

가장 최근에 나온 모델인 Qwen3 Max Thinking에서 1.7%를 Qwen3 Max(Preview) 모델에서 0.9%의 성능을 보여주었고, Qwen3 VL 8B, Qwen3 30B A3B 2507, Qwen3 32B 모델에서는 모두 0.3%의 성능을 기록했다.

4) Gemma 모델의 사이즈에 따른 성능 비교

Model	Number of Parameter		Result
Model	Active Parameters	Passive Parameters	Result
Gemma 3 1B	1B	0B	0.0%
Gemma 3 4B	4B	0B	0.0%
Gemma 3 27B	27B	0B	0.0%
Gemma 3 270M	0B	0B	0.0%
Gemma 3 12B	12B	0B	0.0%
Gemma 3n E2B	2B	4B	0.0%
Gemma 3 4B	4B	0B	0.0%

Gemma 계열의 경우에는 모든 모델의 결과가 0.0%이므로 사이즈에 따른 성능을 비교하기 어렵다.

5) Llama 모델의 사이즈에 따른 성능 비교

Model	Number of Parameter		Result
Model	Active Parameters	Passive Parameters	Result
Llama 4 Maverick	17B	385B	0.0%
Llama 4 Scout	17B	92B	0.0%
Llama 3.1 405B	405B	0B	0.0%
Llama 3 70B	70B	0B	0.0%
Llama 3.3 70B	70B	0B	0.0%
Llama 3.1 70B	70B	0B	0.0%
Llama 3.2 11B (Vision)	11B	0B	0.0%
Llama 3.1 8B	8B	0B	0.0%
Llama 3 8B	8B	0B	0.0%

Llama 계열 모델 또한 모든 모델의 결과가 0.0%으로 사이즈에 따른 성능을 비교하기 어렵다.

6. 데이터셋 관련 연구

앞서 언급했듯 기존 구조화된 문제를 다루는 benchmark들을 통해 LLM의 추론 능력 발전을 확인할 수 있었지만, 그 범위가 여전히 교과 기반의 정형화된 문제에 머무르고 있다는 한계가 있었다. 이에 연구형 benchmark들이 등장했으나, contamination 및 암기 문제에 대한 의문이 제기되었다. CritPt는 이러한 흐름 위에서 실제 물리 연구 workflow를 반영하고 search-proof 설계를 도입한 benchmark로 제안되었다.

아래에 논문에 언급된 참고문헌의 정보를 간단히 정리해두었다. 구조화된 문제를 다루는 benchmark (Structured Benchmarks), 연구형 benchmark (Research-Level Benchmarks), 오염 및 암기 문제에 대한 연구(Contamination / Memorization studies)로 분야를 나누어 3개의 표로 정리하였다.

1) Structured Benchmarks (구조화된 문제를 다루고 있는 벤치마크)

이름	설명	Benchmark type	의의
HumanEval	- 코드 생성 문제 - unit test 기반 자동 채점	Coding benchmarks	- LLM의 단계별 추론과 툴 사용에 대한 강력함 증명
MBPP	- 코드 생성 문제 - unit test 기반 자동 채점	Coding benchmarks	- LLM의 단계별 추론과 툴 사용에 대한 강력함 증명
GSM8K	- 고난도 수학문제 - 정형화된 풀이 과정 - 최종 답이 숫자/식 형태	Math Competitions	- CoT prompting 발전에 기여 - 추론 능력의 발전을 보여줌 - 문제 구조가 명확하다는 단점
Olympiad		Math Competitions
AIME		Math Competitions
MATH		Math Competitions
MATH	- 대학/경시 수준 수학 문제	Academic Benchmarks	- 교육 수준 추론 능력을 평가 - 교과 기반의 높은 난이도 문제 - 연구 workflow를 직접 반영하진 않음
MMLU	- 다분야 객관식 지식 평가	Academic Benchmarks
SciBench	- 대학 수준 과학 문제	Academic Benchmarks
UGPhysics	- 학부 물리 reasoning benchmark	Academic Benchmarks
GPQA	- 대학원 수준, 검색으로 풀기 어려운 Q&A	Academic Benchmarks

2) Research-Level Benchmarks (연구형 문제로 이루어진 벤치마크)

이름	설명	의의
SciCode	- 코딩 중심 연구형 benchmark	- 연구 workflow 일부 반영 - 코드 기반 reasoning 평가
FrontierMath	- Advanced mathematical reasoning benchmark	- Competition을 넘어 research-style 문제 제시 - Open-ended reasoning 평가
TPBench	- Theoretical Physics Benchmark	- 물리학 연구 문제 benchmark 시도 - CritPt의 직접적 선행 사례
Humanity’s Last Exam	- 범용 expert-level 시험	- 초고난도 general intelligence 측정 - Physics 분야에 특화되지 않음

앞서 언급했던 것처럼, reasoning LLM들이 연구형 문제에서 성능이 떨어진다는 사실은 위의 SciCode, FrontierMath, TPBench, Humanity’s Last Exam를 통해 알 수 있었다. 그렇다면 CritPt의 존재 의의는 어디에서 찾을 수 있을까?

먼저 SciCode는 물리학, 생물학, 화학 등의 실제 연구에서 쓰이는 수치 계산 코드를 AI가 작성할 수 있는지를 중점적으로 보는 등 코딩 능력에 초점이 맞추어져 있어서 연구의 전 과정을 아우르는 종합적 추론보다는 구현 능력에 치중되어 있다 고 볼 수 있다.

FrontierMath는 일반적인 AI가 해결하기 어려운 고난도의 수학적 추론을 요하는 벤치마크이지만 분야가 수학이라는 점에서 물리학의 분야는 커버하기 어렵다.

Humanity’s Last Exam(HLE) 또한 굉장히 어려운 문제들로 구성되어 있으나, Physics 분야에 특화되어 있는 벤치마크는 아니다.

마지막으로 같은 Physics 분야를 다루는 TPBench(Theoretical Physics Benchmark) 또한 복잡한 물리 수식을 유도하는 등 고난도의 문항을 담은 벤치마크이다. 그러나 TPBench는 이름 그대로 이론적 추론에 집중하는 반면 CritPt는 실제 연구실에서 필요한 물리학자들의 '실무적 능력'에 대한 요구를 반영하고 있다고 할 수 있다.

결론적으로 CritPt는 스스로 가설을 세우고 도구를 다루며 문제를 해결하는 '독립적인 주니어 연구자' 수준의 성능을 갖췄는지 검증할 수 있는 의미있는 벤치마크라고 할 수 있다.

3) Contamination / Memorization studies (벤치마크 오염 및 암기 문제에 대한 연구)

Subject(논문 제목)	분석 대상	의의
Reasoning or Reciting?	- LLM은 암기인지 추론인지에 대한 내용	- High benchmark score reasoning
Artifacts or Abduction	- 객관식 문제 분석하여 질문이 없이도 답을 맞추는 현상	- Benchmark 설계 취약성 지적
Data Contamination	- Benchmark 데이터가 학습데이터에 섞였는지 분석	- Leakage 문제를 실증적으로 제기 - Search-proof benchmark의 필요성 강화

7. CritPt의 한계점

CritPt의 한계점에 대한 내용은 논문에서 언급된 내용이 아닌 추가적인 견해임을 밝힌다.

벤치마크 규모의 한계
앞서 언급했듯이 하나의 challenge를 제작하는 데 평균 40시간 이상의 전문가 노동이 필요하기 때문에 챌린지 문항의 수가 71개로 매우 적다. 물론 챌린지 하나하나의 무게감과 복잡도가 다른 벤치마크에 비해 압도적으로 크지만, 전체 문항 수가 적기 때문에 몇 문제 차이로도 성능 지표가 크게 요동칠 수 있다.
Coverage의 한계
논문에서는 CritPt가 현대물리학 전반을 아우르고 있다고 언급하지만, 챌린지 문항에 대한 통계(Table 1)를 보면 문항이 분야별로 고르게 분포하고 있지 않다는 점에서 일부 하위 분야는 충분히 반영되지 않았을 수 있다.
Final-answer 중심 평가의 구조적 한계
CritPt의 채점은 final answer를 기반으로 이루어지며, 신뢰성의 문제로 LLM judge는 사용하지 않는다. 물론 CritPt에서는 Final-answer 기반으로 채점을 하더라도 충분히 LLM이 올바르게 추론했는지 확인할 수 있도록 답안의 구조 설계에 신중을 기했지만, 추론 과정을 직접 살펴보는 것이 아니라는 점에서 여전히 구조적 한계는 존재한다고 할 수 있다.
Consistency 검증의 통계적 관점에서의 한계
CritPt에서는 모델의 성능을 신뢰할 수 있는지 여부를 확인하기 위해 5번의 실험 중 모델이 4번 이상 정답을 맞춰야 consistent한 성능을 가진다고 판단했다. 물론 자원의 제약으로 표본 수를 키워 실험을 진행하기에는 어려움이 있었을 수 있으나, n=5라는 표본의 크기는 통계적으로 유의하다고 보기 어렵다고 말할 수 있다.

위와 같은 한계점이 존재하지만, 그럼에도 CritPt는 현재까지 나온 물리 벤치마크 중 가장 '실제 물리학 연구에 가까운 벤치마크'로 충분히 주목할만한 가치가 있다.

'NLP' 카테고리의 다른 글

[2026-1] 박승원 - RoFormer: Enhanced Transformer with Rotary Position Embedding (0)	2026.02.27
[2026-1] 김지원 - LoBERT: Generative AI Foundation Model for Limit Order Book Messages (0)	2026.02.21
[2026-1] 박서형, 김다정 - Humanity’s Last Exam (0)	2026.02.19
[2026-1] 임준수, 박승원 - GPQA (Diamond): A Graduate-Level Google-Proof Q&A Benchmark (0)	2026.02.19
[2026-2] 전진우, 김지은 - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (0)	2026.02.19