[2025-1] 현시은 - PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

원본 논문 링크 : https://arxiv.org/abs/2406.12430

PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ an

arxiv.org

1 Introduction

이 연구에서는 복잡한 데이터 분석을 요구하는 의사 결정 문제를 해결하기 위해 LLM을 활용하는 방법을 탐구한다.
- 이 논문에서는 비즈니스 상황에서의 의사 결정 문제를 다룬다.
- 비즈니스 상황에서의 의사 결정 문제는 아주 중요하고 복잡하며, 이는 주어진 데이터를 분석하고 가장 최적의 대안을 선택는 과정 전체를 의미한다.
이러한 의사 결정 과정은 보통 세 가지 단계로 이루어진다:
- (1) 어떤 분석이 필요한지 계획을 수립
- (2) 필요한 데이터를 검색하고 분석
- (3) 분석 결과를 기반으로 최적의 결정을 내리는 것
기존의 의사 결정 지원 시스템은 데이터 검색과 분석(2, 3단계)을 자동화하는 데 집중했으나, 어떤 분석을 수행해야 하는지 계획하는 단계(1단계)는 여전히 인간이 담당해야 했다. 이 연구는 LLM이 이 계획 단계까지 포함하여 의사 결정 전 과정을 end-to-end 수행할 수 있는지를 탐구한다.
이를 위해 본 논문에서는 Decision QA라는 새로운 문제 정의를 제안하며, 이는 의사 결정 질문 Q, 비즈니스 규칙 R, 데이터베이스 D를 입력으로 받아 최적의 결정을 도출하는 질의응답(QA) 형태의 문제다.
그러나 현재 Decision QA를 평가할 벤치마크가 없기 때문에, 두 가지 시나리오(Locating과 Building, 추후 설명)에 대한 DQA(Decision QA Benchmark)를 구축하였다.
- 이 벤치마크는 현실적인 비즈니스 문제를 모방한 두 개의 비디오 게임 Europa Universalis IV와 Victoria 3에서 추출한 301개의 상황을 기반으로 한다.

기존의 RAG(Retrieval-Augmented Generation) 기반 접근법은 의사 결정 문제를 해결하는 데 한계가 있다. 특히, 기존 방법들은 데이터 검색 및 분석(의사 결정 과정의 2단계와 3단계)에는 효과적이지만, 어떤 분석이 필요한지 계획을 수립하는 1단계는 제대로 처리하지 못한다.
이를 해결하기 위해, 저자들은 새로운 RAG 기법인 PlanRAG(Plan-then-Retrieval Augmented Generation)을 제안한다.
- PlanRAG는 먼저 의사 결정에 필요한 분석 계획을 생성한 후, 해당 계획에 따라 데이터를 검색하고 분석하며, 필요할 경우 계획을 재조정하는 방식으로 동작한다.
이 논문의 Contribution은 아래의 4가지이다.
- Decision QA라는 새로운 task 제안
- DQA라는 Decision QA를 다루는 새로운 벤치마크를 제안
- Decision QA task에 대한 SOTA 방법론인 PlanRAG를 제안
- PlanRAG가 다른 방법론(iterative RAG)보다 뛰어남을 입증

2 Decision QA task

이 섹션에서는 Decision QA라는 task를 수학적 기호로 정의한 섹션이다.
Decision QA는 의사 결정 질문 $Q$, 비즈니스 규칙 $R$, 그리고 구조화된 데이터베이스 $D$를 기반으로 최적의 의사 결정 $d_{best}$를 도출하는 문제이다. 여기서 $Q$는 사용자가 달성하고자 하는 목표를 서술한 텍스트이며, $R$은 $d_{best}$를 추론하는 데 필요한 수식이나 규칙을 의미한다.
데이터베이스 $D$는 너무 크기 때문에 한 번에 LLM에 입력할 수 없다. 따라서 LLM은 데이터 분석을 위한 쿼리를 생성하여 $D$에서 필요한 정보를 검색하는 방식으로 데이터를 활용한다. 이를 데이터 분석 쿼리(data analysis query)라고 한다.
또한, $D$는 LPG(Labeled Property Graph) 데이터베이스 또는 RDB(Relational DataBase) 중 하나일 수 있다.
- RDB는 테이블 형식으로 데이터를 저장하며, LPG는 Node와 edge를 가지는 그래프 형태의 데이터베이스로 널리 사용된다.
- 이 연구에서는 LPG 데이터베이스를 그래프 데이터베이스(GDB)라고 부르기로 한다.

3 DQA : Decision QA benchmark

이 섹션에서는 본 논문에서 제시하는 새로운 벤치마크인 DQA를 설명한다.
이 벤치마크는 두 가지 시나리오(Locating, Building)로 구성되며, 현실적인 의사결정 문제를 모사하기 위해 Europa Universalis IV와 Victoria 3라는 전략 게임의 데이터를 기반으로 구축되었다.

- 각 시나리오의 예시

아래의 Figure 1은 DQA 데이터셋의 하나의 예시를 보여준다.

그림 1: Decision QA의 예제들. 왼쪽 그림은 Location 시나리오의 예시이다. 빨간 점은 Trading Node를 나타냅니다.Deccan box의 Profit은 각 결정에 따른 잠재적인 이익 변화를 의미한다. 단, 이러한 잠재적인 이익 변화는 데이터베이스에 존재하지 않으며, 데이터베이스에서 프로그램이 계산해서 채워야 한다. 각 나라는 단 하나의 Main(Home) Trading Node만 가진다. 테이블에서 밑줄이 그어진 열 이름은 해당 테이블의 Key를 나타낸다. 오른쪽은 Building 시나리오의 예시이다. 빨간색, 초록색, 파란색 원은 각각 furniture, wood, hardwood를 나타낸다. 이 문제에서는 B1과 B2 중 어느 공장을 확장할지 결정하여 생산량을 증가시킴으로써 가구의 가격을 낮추는 것을 목표로 한다.

그림 2. 왼쪽은 Locating 시나리오의 business rule R의 예시이고 오른쪽은 Building 시나리오의 business rule R의 예시

1. Locating 시나리오

특정 국가가 최대한의 이익을 얻기 위해 어느 무역 노드(trade node)에 상인을 배치해야 하는지 결정하는 문제를 다룬다.
데이터베이스는 관계형 데이터베이스(RDB)와 그래프 데이터베이스(GDB)로 구성되며, 각각 무역 흐름, 국가, 무역 노드 간 관계 등의 정보를 포함한다.
의사결정은 이익(profit)의 변화량을 최대화하는 무역 노드를 선택하는 방식으로 이루어진다.

2. Building 시나리오

공장에서 특정 상품을 생산하여 시장 가격을 낮추기 위해 어떤 공장의 규모를 확장해야 하는지 결정하는 문제를 다룬다.
데이터베이스는 상품(Goods), 수요(Demand), 공급(Supply), 공장(Buildings) 등의 정보를 포함하며, 공장 확장을 통해 상품 가격이 어떻게 변하는지를 예측해야 한다.
목표는 특정 상품의 시장 가격을 최소화하는 공장을 선택하는 것이다.

3. DQA의 데이터 통계

총 301개의 문제(Locating: 200개, Building: 101개)로 구성되었으며, 각각 관계형 데이터베이스(RDB)와 그래프 데이터베이스(GDB)로 구현되었다. 그렇기에 DQA 벤치마크에는 총 602개의 데이터베이스가 존재한다.
평균적으로 Locating 시나리오의 데이터는 더 많은 행(row)을 포함하며, Building 시나리오는 상대적으로 작은 규모의 데이터베이스로 구성되었다.

이 벤치마크는 기존의 RAG(Retrieval-Augmented Generation) 방식이 의사결정 문제를 잘 해결하지 못하는 한계를 극복하기 위해 개발되었으며, 이를 평가하기 위한 새로운 RAG 기법인 PlanRAG가 도입되었다.

4 Methodology: PlanRAG

기존의 RAG 기법은 단일 또는 반복적인 데이터 검색을 통해 최적의 결정을 찾으려 하지만, 이 방식은 의사결정을 위한 분석 계획을 수립하는 능력이 부족하다.
PlanRAG는 이를 보완하기 위해 (1) 계획 수립(Planning), (2) 데이터 검색 및 응답(Retrieving & Answering), (3) 재계획(Re-planning)의 세 단계를 포함하는 반복적인 계획-검색 증강 생성(iterative plan-then-retrieval augmented generation) 방식을 도입했다.

계획 수립(Planning)
- PlanRAG는 먼저 주어진 문제(Q), 데이터 스키마(S), 비즈니스 규칙(R)을 분석하여 의사결정을 위한 초기 분석 계획을 생성한다.
- 이 단계에서 어떤 데이터를 검색하고 어떤 방식으로 분석할지 결정한다.
데이터 검색 및 응답(Retrieving & Answering)
- 기존의 RAG 방식과 달리, PlanRAG는 초기 계획을 기반으로 데이터 검색 쿼리를 생성하여 더 효과적으로 필요한 정보를 검색한다.
- 검색된 데이터는 다시 분석되어 추가 검색이 필요한지 판단하고, 필요한 경우 검색을 반복한다.
재계획(Re-planning)
- 초기에 수립된 계획이 충분하지 않을 경우, PlanRAG는 검색된 데이터와 기존 계획을 분석하여 계획을 수정하거나 보완한다.
- 이를 통해 보다 체계적으로 데이터를 검색하고 의사결정을 내릴 수 있도록 한다.

PlanRAG는 기존의 RAG 기법과 비교하여 더 정교하고 효과적인 의사결정 지원을 제공하며, Decision QA 문제를 해결하는 데 있어 높은 성능을 보였다.
특히, 반복적인 계획 수립과 데이터 검색을 결합하여 기존 방법보다 더 정확한 결정을 내릴 수 있도록 한다.

5 Experiments

5.1 Experimental Setup

다음과 같은 네 가지 유형의 LLM 기반 의사결정 시스템을 비교하였다:

SingleRAG-LM: 기존의 단일 검색(Single-turn RAG) 기반 의사결정 모델
IterRAG-LM: 반복적인 검색(Iterative RAG) 기반 의사결정 모델
PlanRAG-LM: 제안된 PlanRAG 기법을 적용한 모델
PlanRAG-LM w/o RP: PlanRAG에서 재계획(Re-planning) 기능을 제외한 모델

각 모델의 프롬프트는 ReAct(Yao et al., 2023) 기법을 기반으로 설계되었으며, 실험에 사용된 LLM은 GPT-4이다.
관계형 데이터베이스(RDBMS)와 그래프 데이터베이스(GDBMS)를 위해 MySQL과 Neo4j를 사용했다.

실험 환경

Zero-shot 설정: 모델이 사전 학습된 데이터 없이 새로운 문제를 해결하도록 평가함.
- 실제 비즈니스 상황에서는 최적의 결정을 위한 전략을 알기가 어렵고, 실험에서 few-shot setting을 하면 예시에 overfit되는 것을 관찰했다고 한다.
single run setting: 한 번의 실행 결과를 기반으로 비교 수행.

평가 기준

모델이 도출한 결정이 정답 데이터(ground-truth)와 의미적으로 동일한 경우 정답으로 간주함.

5.2 Results and Analysis

Main results

PlanRAG가 가장 좋았다.
Locating 시나리오에서 PlanRAG가 상대적으로 더 높은 성능 향상을 보였는데, 이는 Building 시나리오가 더 긴 탐색 과정(traversal)을 요구하고, 계획 수립이 어렵기 때문이다.
Single-turn RAG(SingleRAG-LM)는 Building 시나리오에서 매우 낮은 성능(2.5%)을 기록했으며, 이는 복잡한 쿼리 생성을 단일 검색으로 해결하기 어려웠기 때문이다.
PlanRAG에서 Re-planning 기능을 제거한 모델(PlanRAG-LM w/o RP)의 성능은 Locating에서 10.8%, Building에서 0.9% 감소했다.
- 재계획 과정이 PlanRAG의 의사결정 정확도를 높이는 데 중요한 역할을 한다는 점을 시사함.

Analysis for SR and MR

DQA 데이터셋의 문제를 다음 두 가지 유형으로 나누어 비교했다.
- SR(Single Retrieval): 단 한 번의 데이터 검색으로 해결할 수 있는 문제
- MR(Multiple Retrieval): 여러 번의 데이터 검색이 필요한 문제
- SR과 MR의 기준은 IterRAG-LM에서 검색이 1번 실행되었는냐 여러번 실행되었느냐로 삼았다.
PlanRAG는 SR 유형의 문제에서 IterRAG보다 성능 향상이 두드러졌다.
- IterRAG는 복잡한 문제를 단일 검색으로 해결하려는 경향이 있어, 어려운 문제를 과소평가하는 경우가 많음.
- 반면, PlanRAG는 계획 수립 단계에서 문제의 난이도를 미리 분석하고, 필요한 검색을 반복 수행함으로써 더 정확한 의사결정을 수행함.
MR 유형에서도 PlanRAG가 IterRAG보다 성능이 우수했는데, 이는 PlanRAG가 체계적인 검색을 수행하는 반면, IterRAG는 검색 과정이 비효율적이기 때문이다.

Analysis for RDB and GDB

PlanRAG는 RDB와 GDB 모두에서 기존 방법보다 높은 정확도를 기록했다.
Building 시나리오에서는 GDB에서 상대적으로 높은 성능을 보였다.
- Building 시나리오는 Locating보다 데이터 간의 연결을 더 깊이 탐색해야 하므로, GDB에서 더 효과적으로 처리될 가능성이 큼.

Rate of missed data analysis

PlanRAG와 IterRAG가 데이터를 검색하는 과정에서 필수적인 데이터 분석을 누락하는 비율을 비교했다.

PlanRAG의 누락 비율은 Locating 1.3%, Building 21.8%로 낮았고, IterRAG는 각각 3.3%, 33.2%였다.
- PlanRAG가 더 철저한 검색 및 분석을 수행했음을 의미함.

Analysis for failure cases

CAN: 잘못된 후보를 고려하여 질문을 해결하지 못한 경우
- 예: 그림 1에서 Deccan의 목적지(dest)를 잘못 선택하고 이를 정답으로 도출한 경우
MIS: 데이터 분석 누락(missed data analysis). 중요한 데이터 검색 실패
DEEP: 검색된 데이터나 수식을 부적절하게 사용한 경우
QUR: 쿼리 생성 오류(query generation error)
OTH: 기타 오류 (예: 토큰 길이 제한 초과 등)

모델의 오류 유형을 분석한 결과, PlanRAG는 IterRAG 대비 주요 오류 유형을 효과적으로 줄였다.
특히, 잘못된 후보를 고려하여 문제를 해결하지 못하는 CAN 오류와, 데이터 분석을 누락하는 MIS 오류가 크게 감소했다.
반면, PlanRAG는 DEEP 오류(잘못된 데이터 사용 및 계산 오류)가 약간 증가했는데, 이는 CAN이나 MIS 오류를 감소시킨 것에 대한 부작용으로 볼 수 있다.
PlanRAG에서 CAN과 MIS 오류 감소 → DEEP 오류 증가 이유
- PlanRAG는 계획 수립 및 재계획을 통해 데이터를 더 효과적으로 검색하고, 필요한 분석을 빠뜨리지 않도록 개선되었다.
  → 그 결과, CAN 오류(잘못된 후보 선택)와 MIS 오류(중요한 데이터 검색 실패)가 감소했다.
- 하지만, PlanRAG가 복잡한 분석을 수행하면서, 가져온 데이터를 처리하는 과정에서 계산 오류(DEEP 오류)가 증가하는 부작용이 발생했다.
  → 즉, 필요한 데이터를 잘 가져오기는 하지만, 그 데이터를 활용하는 과정에서 실수를 할 가능성이 높아진 것.
- 기존 방법(IterRAG)은 아예 필요한 데이터를 못 찾아서 틀리는 경우(MIS 오류)가 많았고, 선택해야 할 대상을 잘못 선택하는 경우(CAN 오류)도 많았음.
- 하지만 PlanRAG는 필요한 데이터를 잘 찾고, 고려해야 할 대상을 정확히 선정함.
- 대신, 복잡한 데이터를 처리하는 과정에서 실수할 확률이 높아지면서, 계산 오류(DEEP 오류)가 증가한 것.
즉, PlanRAG가 데이터 검색과 후보 선택의 정확도를 높였지만, 더 많은 데이터를 활용하면서 계산 과정에서 발생하는 실수가 증가했다는 의미다.

Analysis for re-planning

PlanRAG는 Locating 문제의 6%, Building 문제의 38%에서 re-planning을 수행했다.
Building 시나리오에서 더 자주 re-planning이 발생했으며, 일부 문제는 4회 이상 re-planning을 수행했다.
이는 Building 시나리오에서 초기 계획을 수립하는 것이 Locating보다 어렵기 때문이다.
re-planning을 수행할수록 정확도가 향상되었으나, 일정 횟수를 초과하면 성능 향상 효과가 줄어드는 경향을 보였다.

8 Limitations

1, GDB나 RDB에 대해서만 고려하였고 vectorDB에 대해서는 고려하지 않았음

2. Fine-tuning과 같은 low-level method는 고려하지 않고, RAG나 prompt tuning과 같은 high-level method만 고려하였음.

3. LLM 하나만 사용하는 single LM 상황만 고려하고 multiple LM framework에 대해서는 고려하지 않았음

'Natural Language Processing' 카테고리의 다른 글

[2025-1] 이루가 - GloVe: Global Vectors for Word Representation (0)	2025.03.29
[2025-1] 백승우 - Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration (0)	2025.03.07
[2025-1] 백승우 - A-MEM: Agentic Memory for LLM Agents (0)	2025.03.05
[2025-1] 백승우 - LegalAgentBench: Evaluating LLM Agents in Legal Domain (0)	2025.03.04
[2025-1] 백승우 - Perplexed by Perplexity: Perplexity-Based DataPruning With Small Reference Models (0)	2025.03.03