[2025-2] 박제우 - The Impact of Reasoning Step Length on Large Language Models

NLP

[2025-2] 박제우 - The Impact of Reasoning Step Length on Large Language Models

jw2463 2025. 12. 6. 02:17

The Impact of Reasoning Step Length on Large Language Models

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on thi

arxiv.org

본 논문은 2024 ACL Findings에 등재된 논문으로, 2025년 12월 기준 176회 인용되었다.

1. Introduction

그동안 CoT(Chain of Thought)프롬프팅은 cross domain, length generalization, cross lingual 과제 등에서 높은 성능을 보였다.

그러나 이러한 CoT 계열 프롬프트 엔지니어링이 왜/어떻게 효과적으로 작동하는지에 대한 연구는 아직까지 진행되지 않았다. 즉 CoT 내부의 작동 원리를 구조적으로 이해할 필요가 있다는 것이 이 연구의 출발점이 되었다.

본 논문의 핵심 가설은 추론 단계(reasoning step)가 CoT 프롬프트의 효과를 결정하는 핵심적인 요소라는 것이다.

실험에서는 Zero Shot CoT 추론과 Few Shot CoT 추론을 사용했는데 각각은 모든 조건을 동일하게 유지하고 추론 단계만 다르게 해서 성능 변화를 확인했다.

Zero Shot 실험에서는 프롬프트를 "Let's think step by step"에서 “Let’s think step by step, you must think more steps”으로 수정했다.

Few Shot 실험에서는 Demo Sample 내의 추론 단계를 확장시켰다. 그 외에 다른 조건이나 새로운 정보가 개입되는 것은 엄격히 통제했다.

실험 결과 추론 단계 수와 LLM의 추론 능력 사이에는 유의미한 상관관계가 발견되었다. 또한 추론 과정에 잘못된 정보가 개입되더라도 여전히 성능이 향상되었다.

즉 추론 단계의 정확성보다는 길이가 훨씬 모델 성능에 영향을 많이 미친다는 뜻이다. 이 논문의 기여는 아래와 같다.

- Few-shot CoT에서는 추론 단계 수와 정확도 사이에 직접적인 선형 상관관계가 존재한다.

- 잘못된 추론 근거(rationale)라도 요구되는 추론 길이만 유지된다면 성능 향상이 가능하다.

- Zero-shot CoT에서도 추론 단계를 늘리면 LLM 정확도가 유의미하게 향상된다.

2. Related Works

2.1 CoT Prompting

언어 모델의 성능을 프롬프트의 관점에서 높이기 위해서는 대표적으로 In Context Learning 방식과 CoT 추론이 있다.

먼저 2020년 Brown 등의 연구에 따르면, In Context Learning 방식은 복잡한 추론 과제에서 한계를 보임이 밝혀졌다.

이를 개선시켜, Wei 등은 모델 demo에 일련의 논리적 추론 단계를 통합하는 CoT 방식을 제안했고 명시적인 추론 단계 시퀀스를 출력함으로써 맥락을 더욱 깊이 이해할 수 있었다.

2022년에는 더 나아가 등장한 Auto CoT 방식이 등장했는데, 이는 말 그대로 CoT를 자동화 시켜주는 방식이다.

2.2 Preliminary Work on Analyzing CoT

초기 연구로 Madaan과 Yazdanbakhsh(2022)는 프롬프트를 기호, 패턴, 텍스트로 분해하고 반사실적 프롬프팅을 통해 CoT의 구성 요소가 추론에 미치는 영향을 분석하였다.

Tang 등(2023)은 CoT 추론이 사전학습된 의미 지식에 크게 의존하며, 기호적 추론에는 한계가 있음을 보였다. Wang 등(2023)은 추론 단계의 정확성보다도 단계들의 ‘관련성과 순서’가 더 중요함을 실험적으로 밝혔다.

Li 등(2023)은 CoT를 다단계 조합 함수로 이론화하여 인컨텍스트 러닝을 단순화하는 역할을 설명하였다.

또한 Merrill과 Sabharwal(2023)은 중간 추론 단계 수가 많을수록 추론 성능이 함께 증가함을 관찰하였다.

3. Analyzing Method

3.1 Preliminary

Zero Shot CoT : “Let’s think step by step”과 같은 문구를 프롬프트에 추가하는 템플릿 기반 zero-shot 방식이다.

Few Shot CoT : 프롬프트 안에 CoT 추론이 포함된 여러 개의 예시(demonstration)를 함께 제공하는 방식이다.

Manual CoT : 사람이 직접 설계한 소수의 시연 예제를 사용하는 Few-Shot-CoT 방식으로, 각 예제는 ‘질문 + 추론 과정 + 최종 답’으로 구성

Auto CoT : 질문들을 클러스터링하여 다양한 예시를 자동 선택한 뒤, 모델의 zero-shot 추론 능력을 이용해 CoT 추론 예시를 자동 생성하는 방법

3.2 Analyzing Zero-shot CoT

Zero-shot 환경에서는 CoT 예시를 직접 추가할 수 없기 때문에, 기존의 “Let’s think step by step” 프롬프트를 “Let’s think step by step, you must think more steps”로 수정하는 방식만 사용했다.

그 결과, 추가 학습이나 예시 없이도 zero-shot 환경에서 추론 정확도가 유의미하게 향상되었다.

이는 CoT 성능 향상의 핵심이 예시 자체가 아니라 추론 단계의 길이에 있음을 보여준다.