[2025-1] 백승우 - LegalAgentBench: Evaluating LLM Agents in Legal Domain

LegalAgentBench: Evaluating LLM Agents in Legal Domain

With the increasing intelligence and autonomy of LLM agents, their potential applications in the legal domain are becoming increasingly apparent. However, existing general-domain benchmarks cannot fully capture the complexity and subtle nuances of real-wor

arxiv.org

1. Introduction

LLM의 발전으로 법률 전문가들이 법률 연구, 계약서 작성, 판례 분석과 같은 업무를 더욱 효율적으로 처리할 수 있게됨
하지만 아직은 부족한 multistep reasoning과 specialized expertise 능력을 요구함
LLM-as-Agent systems는 multistep reasoning에 참여하고, 외부 도구와의 반복적인 상호 작용을 통해 specialized expertise를 습득
아직 해당 성능을 평가할 수 있는 표준화된 벤치마크가 부족함
LegalAgentBench는 이러한 격차를 메우기 위해 중국 법률 영역에서 LLM agents를 평가
- 17개의 specialized corpora
- 외부 지식과 상호 작용할 수 있는 37개의 도구

Focus on Authentic Legal Scenarios

LLM이 법률 원칙에 대한 확실한 이해
복잡한 법률 문제를 해결하기 위한 도구를 적절히 선택하고 활용

Diverse Task Types and Difficulty Levels

다양한 작업 유형과 난이도
Scalable task construction 프레임워크
- Planning tree를 구성
- hierarchical sampling과 maximum coverage strategy을 통해 작업을 선택
300개의 distinct tasks, including multi-hop reasoning과 writing tasks로 구성

Fine-Grained Evaluation Metrics

최종 성공률에만 평가 기준만으로 평가하지 않음
중간 단계의 주석을 통해 프로세스 비율로 세분화된 평가
Agent의 능력에 대한 자세한 평가 가능
최종 결과 외에도 개선이 필요한 영역을 식별 가능

2. Related Work

2.1 LLM Agents

어려운 task를 해결하기 위해 더 작은 step으로 분할하여 agent의 능력을 향상시킴
ReAct는 추론과 행동을 분리하여 사고 단계와 행동 단계를 번갈아 가며 복잡한 작업의 계획 효율성을 크게 향상시킴
외부 도구(계산기, 검색 엔진, 도메인별 API)를 적절히 호출하여 복잡한 작업을 효율적으로 해결할 수 있음
HuggingGPT는복잡한 작업을 하위 작업으로 분해하고 적절한 전문 모델을 호출하며 결과를 통합하여 최종 응답을 생성하는 컨트롤러로 LLM을 배치
LLM+P는 LLM을 PDDL(Planning Domain Definition Language)에 기반한 symbolic planner와 결합하여 LLM을 활용하여 PDDL 구문으로 문제를 공식화하고 planning solver를 사용하여 솔루션 생성

2.2 Benchmarks on LLM Agents

AgentBench는 운영 체제, 데이터베이스, 지식 그래프 등 8개의 영역에 대한 벤치마크로, multi-turn open-ended generation setting에서 LLM agent 평가
AgentBoard는 multi-turn interactions에서 LLM agent 평가
ToolQA는 외부 도구와 참고 자료가 필요하도록 설계된 8개 영역과 13개 도구를 다루어, 모델의 내부 지식에만 의존하는 것을 방지하여 LLM의 도구 사용 능력을 평가
T-Eval은 LLM의 도구 활용 능력을 계획, 추론, 검색, 이해, 지시 실행, 결과 평가의 여섯 가지로 분류하여 외부 도구를 사용하는 LLM의 능력을 평가
주로 일반적인 LLM 능력을 평가하는 데 초점을 맞추고 있어, 법률, 의학 등과 같은 domain에 대한 능력을 평가하기 힘듦

3. LegalAgentBench

Corpora and Tools

(1) Corpora

총 17개의 실제 법률 데이터를 활용
14개는 표 형식의 데이터베이스로 구성되어 있어, 기업 정보, 법원 정보, 법률 사건 등 다양한 조회 용도의 데이터
3개는 문서 컬렉션 형태로, 법률 지식, 법률 조항, 그리고 판례와 같은 자료를 검색 가능
실제 법률 현장의 다양한 상황을 반영하며, 시간이 지남에 따라 업데이트되어 LLM이 과적합되는 것을 방지

(2) Tools

Text Retrievers: 문서 컬렉션에서 관련 문서를 검색하며, 기본적으로 Embedding-3을 사용하여 질의와 관련된 문서를 반환
Mathematical Tools: 기본적인 산술 연산(덧셈, 뺄셈, 곱셈, 나눗셈)뿐 아니라 데이터 정렬이나 최대/최소값 계산 등 복잡한 수학적 처리를 수행
Database Tools: 각 표 형식 데이터베이스에서 미리 정의된 질의를 통해 필요한 정보를 추출
System Tools: 'Finish' 도구만 포함되어 있으며, 이를 통해 실행 피드백을 파싱하고 최종 결과를 반환

Tasks

(1) Task Definition

LLM 에이전트는 각 시점($t$)마다 행동($a_t$)을 수행하고, 그 결과로 피드백($o_t$)을 받으며, 이를 바탕으로 내부 상태($s_t$)를 업데이트
이 반복 과정은 태스크가 완료되거나 미리 정해진 최대 반복 횟수($T$)에 도달할 때까지 계속됨

난이도와 유형이 다양한 300개의 task
key_answer: 최종 결과의 성공률을 평가하는 데 사용되는 답변의 키워드
key_middle: 작업 해결의 중간 단계에 있는 키워드를 의미하며, 보다 세분화된 평가를 제공하고, 이러한 키워드는 성공적인 도구 호출에서 반환된 관찰 결과에서 파생됨
Path: 과제 해결을 위한 올바른 솔루션 경로로, 길수록 과제와 관련된 난이도가 높다는 뜻

(2) Task Construction

Planning Tree Construction

사용 가능한 도구들의 호출 관계를 바탕으로 계획 트리를 만듦
트리의 루트는 미지의 엔티티(태스크의 시작점)를 나타내며, 각 분기는 특정 도구의 사용 결과로 채워짐
각 경로(leaf node)는 task의 최종 요구사항을 반영

Path Selection:

계획 트리에서 다양한 깊이(1-hop부터 5-hop까지)의 솔루션 경로를 선택해, 태스크의 난이도와 유형을 다양하게 구성
경로의 깊이는 태스크 해결의 복잡도를, 넓이는 태스크 유형의 다양성을 나타냄
Serial Solution Paths
- 도구들을 한 단계씩 순서대로 호출하여 해결 경로를 구성합니다.
- 예를 들어, 1-hop부터 5-hop까지의 연속적인 단계가 있으며, 각 단계는 이전 도구 호출의 결과를 기반으로 다음 도구를 선택
- 경로의 깊이가 클수록 복잡한 문제 해결을 요구하므로, 난이도가 상승
Parallel Solution Paths
- 동시에 여러 도구를 호출하여 서로 다른 정보나 결과를 동시에 수집
- 예를 들어, 변론서를 작성하는 task에서는 피고, 원고, 그리고 관련 법률 지식을 동시에 조회하여 종합적으로 활용
- 여러 정보를 병렬로 수집해 하나의 최종 결과로 통합하므로, 복합적인 문제 상황에 적합
- 각 병렬 경로는 독립적으로 정보를 수집한 후, 최종적으로 결합되어 문제 해결에 기여

Entity Selection:

솔루션 경로에 따라 적합한 entity(예: 기업, 법원 등)를 선택해 구체적인 질문을 구성
모든 초기 entity가 원하는 결과를 내지 않을 수 있으므로, 성공적으로 도구 호출이 이루어진 두 개의 entity를 선택

Question Rewriting:

자동으로 생성된 다중 hop 질문은 실제 사용 사례에 맞추어, 그리고 솔루션 경로가 직접 노출되지 않도록 GPT-4를 활용해 자연스럽게 재작성

Answers Generation:

각 질문에 대해, 해당 솔루션 경로에 따른 도구 체인을 이용해 참조 코퍼스로부터 정답을 자동으로 추출

Human Verification:

생성된 질문, 솔루션 경로, 그리고 정답은 수동 검증을 통해 수정·보완되며, 실사용 환경에 부합하는지 확인

(3) Task Evaluation

Success Rate: 도구 호출 결과에서 추출된 키워드(key_answer)와 모델의 출력이 얼마나 겹치는지 측정하여 최종 성공률을 계산
Progress Rate: 최종 정답뿐 아니라, 문제 해결 중간 단계에서의 키워드(key_middle)를 이용해 진행률(progress rate)을 산출 (세밀한 평가 가능)

(4) Task Statistics

4. Experiment

Experiment Setup

각 모델은 세 가지 방식으로 실험
1. Plan-and-Solve (P-S): 미리 계획을 세우고 순차적으로 실행
2. Plan-and-Execute (P-E): 다단계 계획 후 순차적 실행 및 재평가
3. ReAct: 생각-행동-관찰 사이클을 통해 점진적으로 문제 해결
Task를 받을 때 필요한 도구를 선택하고, 도구 호출 후 피드백을 받아 내부 상태를 업데이트하며 문제를 해결
'Finish'(System Tools) 도구 호출이나 최대 반복 제한(T=10)에 도달하면 최종 결과를 반환

Metrics

Success Rate: 최종 답변에 포함된 정답 키워드(key_answer)와 기준 키워드 간의 중복 비율을 통해 평가
Process Rate: 문제 해결 중간 단계의 키워드(key_middle)와 정답 키워드를 포함한 전체 키워드의 중복 비율을 산출하여, 단계별 진행 상황을 보다 세밀하게 평가
BERT-Score: 생성된 답변과 기준 답변 사이의 텍스트 유사도를 측정하여 답변의 질과 정확도를 평가
토큰 소비량: 각 모델이 문제 해결에 소비한 토큰 수를 참고하여 효율성도 함께 고려

Main Results

모델 별, 방법론 별 성능 차이가 표를 통해 비교되며, 일부 모델(GPT-3.5, LLaMA3.1-8B)은 낮은 성공률을 보이고, GLM-4, GLM-4-Plus, Qwen-max, GPT-4o-mini 등의 모델이 상대적으로 좋은 성능을 나타냄
ReAct 방식은 다중 홉 질문에서 우수한 성능을 보이나, 그에 따른 토큰 소비량이 높음
난이도가 증가할수록 모든 모델의 성공률이 저하되는 경향

Analysis

Lack of specialized legal knowledge

법충분한 법률 지식이 없으면 정확한 추론 경로를 도출하기 어려움
예를 들어, 제출 시간과 재판 시간을 구분하거나 사건 번호의 각 부분이 의미하는 바를 해석하는 데 어려움을 겪음

Insufficient understanding of legal articles and case law

많은 법률 문제는 법률 조항과 판례에 근거해 해결되는데, LLM은 이러한 자료의 범위와 논리를 정확히 해석하는 데 한계가 있음
관련 자료를 성공적으로 검색해도, 그 내용을 실제 법적 해석 및 적용에 연결하는 데 어려움

Other Error Types

Argument 오류: 도구를 호출할 때 올바른 인수를 제공하지 못함
Planning 오류: 잘못된 계획 경로를 생성하거나 부적절한 도구를 사용하는 경우
길이 제한 초과: 상호작용 기록과 도구 사용 계획이 길이 제한을 넘어가 태스크 해결을 방해함
반복 루프: 동일 문제에 대해 반복적으로 시도하여 최대 반복 횟수에 도달함

'Natural Language Processing' 카테고리의 다른 글

[2025-1] 현시은 - PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers (0)	2025.03.06
[2025-1] 백승우 - A-MEM: Agentic Memory for LLM Agents (0)	2025.03.05
[2025-1] 백승우 - Perplexed by Perplexity: Perplexity-Based DataPruning With Small Reference Models (0)	2025.03.03
[2025-1] 백승우 - Data Selection for Language Models via Importance Resampling (0)	2025.03.03
[2025-1] 김지원 - Mamba: Linear-Time Sequence Modeling with Selective State Spaces (0)	2025.02.23