[2026-1] 강민정, 염제원 - GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

Paper

GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

We introduce GDPval, a benchmark evaluating AI model capabilities on real-world economically valuable tasks. GDPval covers the majority of U.S. Bureau of Labor Statistics Work Activities for 44 occupations across the top 9 sectors contributing to U.S. GDP

arxiv.org

Article

https://openai.com/ko-KR/index/gdpval/

실제 작업에서 OpenAI 모델의 성능 측정하기

OpenAI가 44개의 직업에서 실제 경제적 가치가 있는 작업에 대한 모델 성능을 측정하는 새로운 평가인 GDPval을 소개합니다.

openai.com

Dataset

https://huggingface.co/datasets/openai/gdpval

openai/gdpval · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

1. 데이터셋의 구성 의의

배경

기존의 AI 경제 영향 측정 방식(기술 도입률, 사용 패턴, GDP 성장률 등)은 기술 확산 이후의 결과만 파악할 수 있는 '후행 지표(lagging indicators)'라는 한계가 있다.

필요성

AI가 산업에 광범위하게 도입되기 전에 그 파급력을 선제적으로 파악해야 한다. 이를 위해서는 학술적인 객관식 테스트가 아닌, '실제 경제적 가치가 있는 현실 업무' 수행 능력을 직접 평가할 벤치마크가 필요하다.

GDPval의 의의

미국 GDP 기여도 상위 9개 부문의 44개 주요 직업군을 포괄하는 실무 기반 평가 데이터셋이다. 평균 14년 경력의 업계 전문가들이 짧게는 평균 7시간, 길게는 수 주에 걸쳐 수행하는 복잡한 실제 업무들로 구성되었다.

2. 데이터셋 예시

단순한 텍스트 기반의 질의응답을 넘어, 다수의 참조 파일을 분석하고 다중 모달(Multi-modality) 형식의 결과물을 생성하는 실제 실무 환경을 반영한다. 전체 세트 기준 최대 38개(골드 세트 최대 17개)의 참조 파일을 파악해야 하며, 요구되는 결과물 형식도 텍스트, PDF, 스프레드시트, 슬라이드, CAD 파일, 동영상, 오디오 등으로 다양하다.

주요 직무별 작업 예시

제조 엔지니어: 조립 라인용 케이블 릴 스탠드의 3D 모델(CAD) 설계
재무 및 투자 분석가: 라스트 마일 배송 시장의 경쟁사 환경 분석 슬라이드(PPTX) 작성
등록 간호사: 피부 병변 이미지 평가 및 상담 보고서 작성
비디오/오디오 편집자: 영상·오디오를 활용한 인트로 영상(intro reel) 제작
고객 서비스: 반품을 요구하는 불만 고객 대응 이메일 작성

Figure 1: Example GDPval tasks from full set

3. 데이터셋 관련 통계

직업/산업군 구성

미국 GDP 기여도가 5% 이상인 상위 9개 부문 내에서, 총 임금 비중이 높은 44개 주요 직업군을 포괄한다.
특정 작업에 편중되지 않도록 광범위하게 설계되었다.
: 미국 노동부 기준, 고유 직무 작업(Tasks) 208개, 기술(Skills) 25개, 작업 활동(Work Activities) 26개

Task (prompt)

전체 세트: 총 1,320개(각 직업당 30개), Gold subset(오픈소스 공개): 220개(각 직업당 5개)
소요 시간: (전문가 기준) 평균 약 7~9.5시간, 길게는 수 주(최대 605시간)가 소요되는 long-horizon 실무로 구성
각 작업의 평균 금전적 가치: 해당 직업의 시간당 임금 기준 약 $391~$398
단순 텍스트 입출력을 넘어, 전체 작업의 67.7%가 최소 1개 이상의 참조 파일 분석을 요구한다.
- 작업 시 파악해야 할 참조 파일: 골드 세트 기준 최대 17개, 전체 세트 기준 최대 38개
task prompt 길이: 최소 617자 ~ 최대 6,620자(Characters)
* Hugging Face 데이터셋의 메타데이터로 확인한 결과

Figure 2: GDPval includes real-world work from 44 occupations.

4. 현재 벤치마크 성적

4.1 Llama의 경우

Llama의 경우에는 Model Size에 따른 특별한 경향성은 보이지 않지만 가장 최근에 나오고 파라미터수가 가장 큰 Llama 4 Maverick이 1위를 차지했다.

4.2 Qwen의 경우

Qwen의 경우에는 Parameter Size에 따른 Scale이 좀 더 명확해 보인다.

또한, Non-Reasoning < Reasoning Model의 경향성도 눈에 띄고, 작은 Vision-Language Model이 큰 Language Only Model을 이기는 것도 눈에 띈다. 예를 들어, Qwen3 VL 4B Reasoning은, 235B Reasoning을 이기고 2위를 차지했다.

최근 출시된 Qwen3.5 시리즈의 경우에는 전반적인 ELO 점수가 크게 오른 것을 확인할 수 있다. 모두 Vision Language Model인 상황이다. 다만, 0.8B급 모델의 경우에는 이전 시리즈가 더 나은데, Vision Langauge를 모두 아우르기에는 0.8B가 Capacity가 안되는 것으로 이해할 수 있다.

4.3 한국 모델의 경우

한국 모델에서는 K-EXAONE>HyperClova X>Solar>Mi:dm 순이고, Reasoning>Non-Reasoning의 우위도 관찰된다. 1등 모델의 성적이 Llama보다 우위, Qwen3 235B보다 우위이지만 최근 출시된 Qwen3.5 시리즈 중 비슷한 체큽의 모델에는 아직 못 미치는 결과이다.

4.4 주요 Frontier 모델의 성적

GPT-5.4(xhigh)가 현재 최고 성능을 기록하고 있으며, 그 뒤에 Claude 4.6 시리즈가 바짝 붙어있다. 놀라운 점은 오픈 소스 모델인 GLM-5가 Gemini 성능도 뛰어넘었다는 것이다. 한편, Chat모델의 성능은 상대적으로 약세에 있고, Qwen3.5 시리즈도 Grok 4를 현재 뛰어넘은 상태이다.

5. 데이터셋 구축 방법론

직업 선정 과정

미국 노동부 O*NET 데이터베이스와 노동통계국(BLS) 자료를 활용해 GDP 기여도와 임금 비중이 높은 직업을 1차 선별했다. 이후 GPT-4o를 활용해 직무 구성 작업의 60% 이상이 '디지털' 기반인 직업만 최종 평가 대상으로 확정했다. 이때 60% 기준은 각 작업의 '관련성, 중요도, 빈도' 점수를 가중치로 두어 정밀하게 계산했으며, 기존 경제학 프레임워크와 비교해 그 타당성을 검증했다.

작업(Task) 출제 및 자체 평가

평균 14년 경력의 실제 업계 전문가들을 채용해 작업을 출제했다. 구글, 애플, 골드만삭스, 미국 국방부 등 최고 수준의 주요 기업 및 기관 출신들이 참여하여 화상 면접, 신원 조회, 사전 교육 및 퀴즈를 모두 통과한 상위 10% 미만의 인원만 최종 선발되었다. 전문가들은 출제한 작업이 실제 직무를 완벽히 대표할 수 있도록 O*NET 직무 분류에 맞춰 할당했다. 또한 스스로 출제한 작업의 난이도, 대표성, 예상 소요 시간, 전반적 품질을 실제 업무 표준에 맞춰 직접 1차 평가했다.

품질 관리(후처리) 파이프라인

AI 사전 스크리닝
AI 모델을 이용해 직무 연관성, 컴퓨터 기반 작업 여부, 적절한 난이도, 파일 누락 여부 등을 1차적으로 자동 검토한다.
인간 전문가의 다단계 리뷰
일반 검토자, 직무 전문 검토자, 최종 검토자로 이어지는 최소 3회(평균 5회)의 반복적인 인간 리뷰를 거친다. 리뷰어들은 구체적인 피드백을 제공하며, 출제자는 작업이 실제 업계 기준을 충족할 때까지 반복적으로 수정해야만 평가 파이프라인을 통과할 수 있다.

Figure 3: Tasks undergo multiple rounds of review to ensure realism and quality.

6. 관련 연구

6.1 AI의 경제 및 노동 시장 영향

The simple macroeconomics of AI (Acemoglu et al., 2025)
- AI의 경제적 영향을 파악하기 위해 AI 채택률, 사용 패턴, AI 도입으로 인한 GDP 성장률 등의 지표에 주로 초점을 맞춘 기존 연구 흐름을 대변함.
- AI 모델이 특정 작업을 자동화하거나 전체 직업을 대체할지, 혹은 새로운 형태의 업무를 창출할지에 대한 노동 시장의 논쟁을 소개함.
- 그러나 이러한 거시적 관찰 방법론들은 유용한 정보이긴 하나, AI의 경제적 파급력을 파악하기에는 이미 늦은 후행 지표(Lagging indicators)라는 한계가 있음.
The dynamo and the computer: An historical perspective on the modern productivity paradox (David et al., 1990)
- 전기, 비행기, 컴퓨터 등 과거의 기술적 변화 사례를 분석함.
- 새로운 기술이 발명되어 경제 전반에 스며들기까지는 규제, 문화, 그리고 절차적 변화가 동반되어야 하므로 흔히 수년에서 수십 년이 걸린다는 역사적 근거를 제공함.
Artificial Intelligence and the Modern Productivity Paradox: A Clash of Expectations and Statistics(Brynjolfsson, Rock, & Syverson, 2018)
- AI 기술에 대한 높은 기대와 실제 생산성 통계 간의 괴리를 분석한 대표적 연구임. 거짓 희망(False hopes), 측정 오류(Mismeasurement), 재분배(Redistribution), 구현 지연(Implementation lags)이라는 네 가지 잠재적 설명을 제시하며, 이 중 구현 지연이 역설의 가장 큰 원인이라고 주장함.
- David (1990)의 역사적 기술 확산 지연 논의와 직접 연결되며, GDPval이 "후행 지표의 한계"를 극복하기 위해 AI 능력을 직접 측정해야 한다는 핵심 동기를 강하게 뒷받침함.
The Rapid Adoption of Generative AI (Bick, Blandin, & Deming, 2024)
- 생성형 AI의 실제 채택률이 1980년대 PC 보급 속도와 유사한 궤적을 보인다는 실증적 근거를 제시함.
- AI 능력 측정의 시의성을 강조하는 근거로 활용되며, GDPval 논문에서도 인용됨.

6.2 AI-인간 협업 및 실제 생산성 실증 연구

Generative AI at Work (Brynjolfsson, Li, & Raymond, 2023; QJE 2025)
- 5,179명의 고객 지원 상담원 데이터를 활용하여 생성형 AI 기반 대화 보조 도구의 단계적 도입 효과를 분석한 연구임. AI 도구 접근이 시간당 해결 건수 기준 생산성을 평균 14% 향상시켰으며, 초보 및 저숙련 노동자에게는 34%까지 효과가 나타난 반면 고숙련 노동자에게는 미미한 영향만 확인됨.
- GDPval이 모델의 "산출물 품질"을 측정한다면, 이 연구는 실제 현장에서의 "생산성 향상 효과"를 보여주는 상호보완적 관계에 있음. 특히 GDPval에서 모델이 전문가 대비 90~327배 빠르고 저렴하다는 결과와 직접 연결됨.
Centaur Evaluations (Brynjolfsson & Haupt)
- Stanford의 Brynjolfsson과 동료 Andy Haupt가 제안한 평가 패러다임으로, AI 모델을 인간의 대체물로 보는 기존 평가 방식 대신 인간이 AI 모델과 짝을 이루어 보조를 받을 때의 수행 성과를 측정하는 "Centaur Evaluations"을 주장함.
- GDPval이 현재 "AI 단독 vs. 인간 전문가" 비교에 초점을 맞추고 있으나, 향후에는 AI-인간 협업 성과를 함께 측정해야 한다는 방향성을 제시함. Fortune 지에서 Brynjolfsson은 GDPval에 대해 "AI 연구자들이 기술 벤치마크만 달성하는 것이 아니라 실질적 업무에 유용한 시스템을 설계하도록 영감을 줄 것"이라고 평가함.

6.3 기존 AI 벤치마크 및 에이전트 평가

Humanity's last exam (Phan et al., 2025), Measuring massive multitask language understanding (MMLU)(Hendrycks et al., 2020)
- 대부분의 기존 AI 평가 지표들은 논리적 추론 난이도(Reasoning difficulty)에 집중하는 학술적인 시험(Academic test) 형식에 기반을 두고 있음.
- 반면 GDPval은 산업 전문가들이 만든 실제 업무 결과물을 바탕으로 여러 번의 검토를 거치는 등 철저히 현실성(Realism)을 추구했다는 점에서 차별화됨.
SWE-lancer: Can frontier LLMs earn $1 million from real-world freelance software engineering?(Miserendino et al., 2025)
- 소프트웨어 엔지니어링과 같이 특정 단일 도메인(Specific domains)에 국한된 기존 AI 모델 평가의 예시임.
- 이에 비해 GDPval 연구는 미국 산업 내 44개 주요 직업군을 아우르는 광범위한 대표성(Representative breadth)을 확보함.
GAIA: A Benchmark for General AI Assistants (Mialon et al., 2023)
- 추론, 멀티모달 처리, 웹 브라우징, 도구 사용 능력 등 기본적 능력을 요구하는 466개의 실세계 질문을 제안한 벤치마크임. 인간 응답자는 92% 성공률을 보인 반면 플러그인이 장착된 GPT-4는 15%에 그쳐, AI와 인간 간 범용 능력의 큰 격차를 드러냄.
- GDPval과 마찬가지로 "현실적 과제"를 지향하지만, GAIA는 도구 사용·웹 검색 등 에이전트의 범용 능력에 초점을 맞추고 GDPval은 전문 직업의 산출물 품질에 초점을 맞춘다는 점에서 상호보완적임.
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks (Xu et al., 2024)
- 실제 직장 업무에서 AI 에이전트의 능력을 측정하기 위한 벤치마크로, 에이전트가 웹 브라우징, 코딩, 시뮬레이션된 동료와의 상호작용을 통해 소프트웨어 엔지니어링, 프로젝트 관리, 재무 분석 등의 과제를 수행해야 함.
- 최고 성능 모델인 Gemini 2.5 Pro가 전체 테스트의 30.3%만을 자율적으로 완수할 수 있었다는 결과를 보고하여, AI 에이전트의 현실적 한계를 보여줌.
- GDPval의 한계로 지적된 "상호작용 부재" 및 "일회성 지시"를 직접 보완하는 벤치마크로서 대조 인용 가치가 높음.
τ-bench (Sierra AI, 2024)
- 시뮬레이션된 인간 사용자 및 프로그래밍 API와 상호작용하면서 도메인별 정책을 일관되게 따르는 에이전트의 능력을 측정하는 벤치마크임. 항공사 예약, 소매 등 현실적 시나리오에서 에이전트가 질문하고, 데이터베이스를 조회하고, API를 호출하며, 정책 문서를 준수해야 함.
- GDPval의 한계점("상호작용이 배제된 일회성 지시")과 직접 대비되며, 에이전트가 장기적 대화에서 정책 준수와 신뢰성을 유지하는 능력을 평가한다는 점에서 보완적임. 특히 "pass^k" 메트릭을 도입하여 반복 시행 시의 신뢰성까지 측정함.
WebArena: A Realistic Web Environment for Building Autonomous Agents (Zhou et al., 2023)
- 자율 에이전트가 웹 작업을 수행하기 위한 벤치마크이자 자체 호스팅 환경으로, 전자상거래, 소셜 포럼, 협업 코드 개발, 콘텐츠 관리의 네 가지 현실적 도메인에서 시나리오를 시뮬레이션함.
- GDPval이 다루지 못하는 웹 기반 인터랙티브 작업 평가의 대표적 예시로, 812개의 템플릿 작업을 포함하며 기능적 정확성(Functional correctness)을 평가 기준으로 사용함.

6.4 직무 분석 및 평가 방법론

평가 대상을 선정하고 검증하기 위해 기존 경제학의 직무 프레임워크와 최신 LLM 프롬프팅 기법을 결합하여 방법론의 타당성을 입증하는 데 활용함.

GPTs are GPTs: An early look at the labor market impact potential of large language models (Eloundou et al., 2023)
- 언어 모델(GPT-4o)에 프롬프트를 주어 특정 직업의 세부 작업이 '디지털' 환경에서 이루어지는지 자동 분류하는 접근법을 제안한 연구임.
- GDPval 연구진 역시 이 방법론을 차용하여 작업을 디지털 또는 비디지털로 분류하고, 60% 이상의 작업이 디지털인 경우 해당 직업을 디지털 직업으로 정의함.
Skills, tasks and technologies: Implications for employment and earnings (Acemoglu & Autor, 2011)
- 직무의 내용을 인지적(Cognitive) vs 수작업(Manual), 정형화된(Routine) vs 비정형화된(Non-routine) 작업으로 세분화하는 프레임워크를 수립함.
- GDPval 연구진이 정의한 '디지털 작업' 지표가 비정형 인지적(Non-routine cognitive) 내용과 비례하고 정형 및 수작업 내용과 반비례한다는 것을 입증하여, 분류 방식이 경제학적으로 타당함을 검증함.

6.5 LLM-as-Judge 및 자동 평가 편향 (LLM-based Evaluation and Automated Grading Bias)

GDPval의 자동 채점기 설계 및 한계를 논의하는 맥락에서, 모델 기반 평가의 가능성과 편향에 관한 연구들을 인용함.

LLM evaluators recognize and favor their own generations (Panickssery et al., 2024)
- 언어 모델 기반의 평가자가 자신이 생성한 결과물을 더 선호하는(Favor their own responses) 현상을 밝힌 연구임.
- GDPval 연구의 GPT-5-high 기반 자동 채점기 역시, 우수한 성능을 지닌 타사 모델들을 평가할 때 인간 채점자와의 합의율이 떨어지는 현상을 설명하는 데 인용됨.
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (Zheng et al., 2023)
- GPT-4와 같은 강력한 LLM 평가자가 인간 선호도와 80% 이상 일치율을 달성하며, 이는 인간 간 일치율과 동일한 수준임을 보인 연구임. 동시에 첫 번째 선택지를 선호하는 위치 편향(Position bias) 등 모델 기반 평가의 체계적 한계도 함께 보고함.
- GDPval의 자동 채점 접근법의 이론적 기반이 되며, 인간 전문가 채점과의 보완 관계를 정당화하는 근거로 활용 가능함.

7. 평가방법론

전문가의 블라인드 쌍대 비교 (Pairwise comparisons)

객관식(MCQA)이나 단답식 형태의 단순 채점이 불가능한 복잡한 실무이므로, 해당 직무의 실제 업계 전문가가 '인간의 실제 결과물'과 'AI 모델이 생성한 결과물'을 나란히 두고 블라인드 평가를 진행한다. 평가의 신뢰도를 높이기 위해 한 건을 채점하는 데 평균 1시간 이상이 소요되었으며, 단일 평가자에 의존하지 않고 각 샘플당 3명의 서로 다른 전문가가 평가를 수행했다. 전문가들은 평가 시 선택에 대한 구체적인 정당성을 기록한다.

평가 기준

단순한 지시사항 이행이나 계산의 정확도(Accuracy)뿐만 아니라, 문서의 구조, 미적 요소(서식, 레이아웃), 파일 형식의 정확성, 적절성 등 주관적이고 실무적인 요소를 종합하여 평가한다. 평가 지표로는 모델의 결과물이 인간 전문가의 결과물보다 우수하거나(Wins) 동등한(Ties) 비율을 나타내는 '승률(Win rate)'을 사용한다. 이는 점수가 금방 100점에 도달해버리는 기존 벤치마크들의 '상한선(Upper limit)' 한계를 극복하고 모델의 발전 능력을 지속적으로 평가할 수 있게 해준다.

자동 채점기 (Automated Grading)

인간 평가 방식의 막대한 비용과 시간 소요를 보완하기 위해, GPT-5-high 기반의 실험적인 자동 채점기를 구축하여 대중에게 제공(evals.openai.com)한다. 이 시스템은 인간 전문가와 약 66%의 의견 일치도를 보이는데, 이는 서로 다른 인간 전문가 간의 일치도(약 71%)와 5%p밖에 차이 나지 않는 유의미한 수치다. 단, 현재의 자동 채점기는 인터넷 접속이 불가능하고, 파이썬 외의 언어를 실행할 수 없으며, 시각적 폰트 렌더링이나 음성-텍스트 변환 등에 일부 기능적 한계가 존재하여 인간 평가를 완벽히 대체하지는 못한다.

자동 채점기 편향성 (Self-Preference Bias) → 본문 6.5 참고

GPT-5-high를 기반으로 한 자동 채점기는 OpenAI 모델의 결과물을 평가할 때 인간 전문가 채점자와의 상관관계가 더 낮게 나타났다. 이는 모델이 자신의 생성물을 선호하는 경향이 있다는 경험적 증거와 일치한다.

Figure 4: GDPval uses pairwise expert comparisons for grading. We also create an experimental automated grader. We find that automated grader agreement is within 5% of human inter-rater agreement on the GDPval gold subset.

8. 실험 결과

논문은 구축된 GDPval 벤치마크를 활용하여 크게 5가지 측면의 실험을 수행했다.

기준

실험 대상: gold subset(220개)
채점: 인간 전문가 평가

모델별 실행 환경

OpenAI 모델(GPT-4o, o4-mini, o3, GPT-5): API 기반의 자동화 파이프라인 + 코드 인터프리터 샌드박스
- 파이썬 기반의 격리된 컨테이너 환경에서 실행
- 평가 시스템이 API를 통해 프롬프트를 전달하면, 내장된 '웹 검색(Web search)'과 '코드 인터프리터(Code interpreter)' 도구를 활용해 코드 작성, 파일 조작 등 수행하며 결과물 산출
Claude Opus 4.1: 웹 UI 기반
- Claude가 제공하는 업그레이드된 파일 생성 및 분석 기능을 활용해 최고 성능을 뽑아내기 위함

8.1 주요 성과(Headline Results) 비교

최신 프런티어 모델들과 인간 전문가의 성과를 pairwise 비교했다.

Claude Opus 4.1: 승률(인간과 동점 포함) 47.6% -인간 수준에 가장 근접
Claude: 시각적 파일(.pdf, .xlsx, .ppt)과 미적 영역에서 강점 <> GPT-5 high: 순수 텍스트와 정확도 면에서 강점
OpenAI 모델(GPT-4o, o3, GPT-5): 출시일에 따라 승률이 대략 선형적으로 향상되는 추세

Figure 5: On human pairwise comparisons, models are beginning to approach parity with industry experts on the GDPval gold subset.

Figure 6: Performance of OpenAI frontier models increased roughly linearly over time on the GDPval gold subset.

8.2 비용 및 속도 비교 (Speed & Cost Comparison)

AI 모델을 활용해 작업을 시도하고, 만족스럽지 않으면 인간 전문가가 이를 수정하는 워크플로우를 가정하여 경제적 효율성을 측정했다.

여기에서 말하는 비용(Cost)이란?

H_T, H_C: 인간 전문가의 작업 소요 시간(Human Time)과 비용(Human Cost)
R_T, R_C: AI 결과물을 인간이 검토하는 데 걸리는 시간(Review Time)과 비용(Review Cost)
M_T, M_C: 모델의 생성 시간(Model Time)과 API 호출 비용(Model Cost)
w: 모델의 승률(Win rate)

총 비용
= (모델 API 호출 비용) + (전문가의 검토 인건비) + (AI가 실패했을 때 전문가가 직접 다시 작업하는 데 드는 수습 인건비)

GPT-5 high, o3 high: 인간 단독 작업(Unassisted) 대비 유의미한 시간 및 비용 절감 효과
성능이 낮은 구형 모델(GPT-4o)은 인간이 다시 수정하는 시간이 더 들어 비효율적

Figure 7: In the scenarios we analyze, models show the potential to save time and money by coupling AI assistance with expert human oversight. Here, we show speed and cost savings from a “try n times, and if still unsatisfactory, fix it yourself” approach as detailed in section A.2.1.

8.3 모델의 강점과 약점 분석

AI가 인간에게 패배한 이유를 '지시사항 미준수', '서식 오류', '정확도 부족' 등으로 세분화하여 분석했다.

Claude, Grok, Gemini: '지시사항 미준수(파일 포맷 오류, 약속된 결과물 미제공 등)'로 인해 패배하는 경우가 다수
GPT-5 high: 지시사항은 잘 따랐으나 '서식 오류'가 주된 감점 요인
정확도 면에서 GPT-5, Grok이 오류가 가장 적었으나, 모든 모델이 간헐적인 환각(hallucination)이나 계산 실수를 보임

Figure 8: Across models, experts most often preferred the human deliverable because models failed to fully follow instructions on GDPval tasks.

8.4 추론 노력 및 스캐폴딩(Scaffolding) 실험

1. o3, GPT-5는 더 높은 추론 시간(연산 자원)을 부여할수록 승률이 일관되게 상승했다.

Figure 9(a): Model performance improves predictably with increasing reasoning effort.

2. GPT-5의 최대 약점인 서식 오류를 해결하기 위한 스캐폴딩 방법을 적용했다.

*스캐폴딩(Scaffolding): 교육에서 학습자의 자립을 돕는 단계적 교수법

= 복잡한 작업이나 고차원적인 추론을 스스로 수행할 수 있도록, 외부 지원이나 구조적인 프롬프트 체계를 통해 단계적으로 문제 해결을 유도하는 기술

모델이 LibreOffice를 사용해 시각적 결과물(PPTX, DOCX, PDF, XLSX 등)을 PNG 이미지로 변환하도록 강제한다.
텍스트나 그래픽이 잘린 곳, 겹치는 부분, 또는 왜곡이 없는지 모델 스스로 시각적으로 검토하게 한다.
Best-of-N: 4개의 제출물 샘플을 생성하고, GPT-5 심사관이 프롬프트와 참조 파일을 바탕으로 1개를 선정하는 시스템을 적용한다.

결과

모델이 시각적 능력을 활용해 결과물을 검사하는 비율: (15% → 97%)
PDF의 검은 상자 아티팩트 완전히 제거, PowerPoint의 심각한 서식 오류 (86% → 64%)
GPT-5의 인간 대비 승률: 5%p 추가 향상(43.1%)

Figure 9(b): Prompt-tuning and scaffolding improvements also increase GPT-5 performance.

8.5 모호성/맥락 부족(Under-contextualized) 실험

현실의 불확실한 업무 환경을 모사하고 "무엇을 작업하고 필요한 입력을 어디서 얻을지 스스로 파악하며 모호성을 해결하는 능력"을 측정하기 위해 세부 지침을 생략하여 테스트했다.

방식

'참조 파일 내 특정 데이터의 정확한 위치', '문제 접근 방식', '최종 결과물에 대한 상세한 서식 기대치' 등 구체적인 가이드라인을 생략했다. → 프롬프트 길이: 기존 대비 평균 42% 수준(토큰 수 기준)

결과

GPT-5의 결과물 인간 전문가가 채점한 결과: 요구되는 맥락을 스스로 유추하는 데 어려움을 겪고 성능이 크게 하락했다.
(초기 버전 골드 서브셋으로 진행되어 본문의 주요 승률 수치와 직접 비교는 어려움)
현실의 대부분의 업무는 단순한 지시 이행을 넘어, 작업의 전체 맥락을 파악하는 데부터 노력이 필요하다. 이것이 기존 AI 벤치마크들이 다루지 못했던 실제 전문 지식 노동의 핵심적인 특징이라고 강조한다. 연구진은 이 실험을 근거로 향후 GDPval 벤치마크에 더 높은 수준의 상호작용성과 맥락적 현실성을 통합하는 개선 작업을 진행 중이라고 밝혔다.

9. 한계점 및 향후 과제

9.1 독립적인 디지털 지식 노동에 국한된 평가 범위

현재 GDPval의 초기 버전은 컴퓨터로 완결할 수 있는 형태의 디지털 지식 노동(Digital knowledge-work)에만 전적으로 초점을 맞추고 있음. 따라서 매뉴얼이 필요한 육체노동이나 물리적 작업은 평가에서 철저히 제외됨.
또한, 고도의 암묵적 지식(Tacit knowledge)이나 개인 식별 정보(PII) 접근, 독점적 사내 소프트웨어 사용, 그리고 개인 간의 의사소통이 필수적인 업무 등은 현재의 평가 범위를 벗어나 있음.
이러한 제약으로 인해 GDPval의 결과를 경제 전체로 일반화하는 데는 주의가 필요함. Brynjolfsson, Li, & Raymond (2023)의 고객 지원 연구에서도 AI 효과가 환경의 안정성에 크게 의존한다는 점이 확인되었으며, 제품이나 환경이 급변하는 영역에서는 AI 도구의 상대적 가치가 달라질 수 있음.
연구진은 향후 버전에서 이러한 다면적인 요소들까지 포괄할 수 있도록 벤치마크를 개선할 계획임.

9.2 상호작용이 배제된 일회성 지시

현재의 벤치마크는 프롬프트 내에 업무에 필요한 전체 맥락(Full context)을 명시하여 제공하는 '일회성(One-shot)' 평가라는 한계를 지님. 실제 업무 현장에서는 전체 맥락을 파악하고 스스로 무엇을 작업해야 할지 알아내는 과정 자체가 상당한 노력과 시간을 요구함.
실제로 맥락을 줄인(Under-contextualized) 프롬프트로 추가 실험을 진행했을 때, 모델들이 상황을 유추하는 데 어려움을 겪고 성능이 저하되는 현상이 확인됨.
이러한 한계는 최근의 에이전트 기반 벤치마크들과 대비됨:
- TheAgentCompany (Xu et al., 2024)는 에이전트가 시뮬레이션된 동료와 대화하며 정보를 수집해야 하는 상호작용적 환경을 구현했으나, 최고 성능 모델조차 30.3% 완수율에 그쳐 상호작용적 업무의 높은 난이도를 보여줌.
- τ-bench (Sierra AI, 2024)는 반복 시행 시 성공률이 급락하는 현상을 보고하여, 단일 시행 기반 평가만으로는 에이전트의 실제 신뢰성을 포착하기 어렵다는 점을 시사함.
- GAIA (Mialon et al., 2023)는 도구 사용과 웹 브라우징을 포함한 다단계 추론을 요구하지만, 여전히 단일-질의(Single-query) 형태이며 장기적 상호작용은 평가하지 않음.
향후에는 상호작용성(Interactivity), 맥락적 현실성, 그리고 다중 턴(Multi-turn) 대화 능력을 평가에 더욱 적극적으로 도입해야 할 필요성이 제기됨. Brynjolfsson & Haupt가 제안한 "Centaur Evaluations" 패러다임, 즉 인간-AI 협업 환경에서의 성과 측정도 향후 통합을 고려할 만한 방향임.

9.3 데이터셋의 규모 및 자동 채점기의 한계

현재 전체 데이터셋은 44개 직업군에 대해 각 30개 정도의 작업만을 표본으로 포괄하고 있어, 방대한 지식 노동의 모든 작업을 대변하기에는 규모가 작음. 연구진은 향후 데이터셋 규모를 확장할 예정임.
전문가 채점에 드는 막대한 비용 절감을 위해 실험적인 자동 채점기(Automated grader proxy)를 배포했으나, 인간 전문가 채점자에 비해 뚜렷한 기술적 한계를 안고 있어 완전한 대체재로 고려되지 않음.
- 해당 자동 채점기는 제한된 컨테이너 환경으로 인해 인터넷 접속이 불가하고, Python 실행만 지원하며, 운영체제 간 폰트 패키지 문제나 비음성(Non-voice) 사운드 식별 불가 등의 명확한 제약이 존재하여 220개의 골드 서브셋 중 12개 작업은 채점 불가로 처리됨.
- Panickssery et al. (2024)이 밝힌 바와 같이, LLM 기반 평가자는 자신이 생성한 결과물을 선호하는 체계적 편향을 가지고 있어, GPT-5-high 기반 채점기가 타사 모델의 우수한 결과물을 과소평가할 위험이 있음.
- 반면 Zheng et al. (2023)은 GPT-4 수준의 LLM 평가자가 인간 선호도와 80% 이상 일치할 수 있음을 보였으나, 위치 편향(Position bias) 등의 한계도 함께 보고하여, 자동 채점의 신뢰성은 여전히 조건부임.

9.4 AI 단독 평가의 한계와 협업 평가의 필요성

GDPval은 현재 "AI 모델 단독 수행 vs. 인간 전문가 단독 수행"의 비교 프레임워크를 채택하고 있음. 그러나 실제 업무 현장에서 AI는 인간을 완전히 대체하기보다 보조하는 형태로 활용되는 경우가 더 많음.
Brynjolfsson, Li, & Raymond (2023)는 AI 도구가 숙련 노동자의 모범 사례를 덜 숙련된 노동자에게 전파하는 역할을 한다는 실증적 증거를 제시하여, AI의 가치가 단독 수행 능력보다는 인간과의 협업 시너지에서 발현될 수 있음을 시사함.
Brynjolfsson & Haupt가 제안한 "Centaur Evaluations" 패러다임은 이러한 한계를 직접 해결하려는 시도로, 향후 GDPval의 다음 버전에서 인간-AI 협업 조건에서의 산출물 품질 및 생산성을 함께 측정하는 방향을 고려할 필요가 있음.
이는 AI의 경제적 영향을 더 정확히 예측하기 위해서도 필수적인데, AI 도입의 실제 효과는 조직 내 워크플로우 재설계, 인력 재배치, 보완적 투자 등과 깊이 얽혀 있기 때문임 (Brynjolfsson, Rock, & Syverson, 2018).

'Multi-Modal' 카테고리의 다른 글

[2026-1] 정재훈 - Multimodal UnsupervisedImage-to-Image Translation (0)	2026.05.16
[2026-1] 백승우 - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction (0)	2026.03.24
[2026-1] 백승우 - AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines (0)	2026.03.10
[2026-1] 정유림 - FiLM: Visual Reasoning with a General Conditioning Layer (0)	2026.02.21
[2026-1] 정재훈 - CoCa: Contrastive Captioners are Image-Text Foundation Models (0)	2026.02.21