LegalAgentBench: Evaluating LLM Agents in Legal Domain
With the increasing intelligence and autonomy of LLM agents, their potential applications in the legal domain are becoming increasingly apparent. However, existing general-domain benchmarks cannot fully capture the complexity and subtle nuances of real-wor
arxiv.org
1. Introduction
- LLM의 발전으로 법률 전문가들이 법률 연구, 계약서 작성, 판례 분석과 같은 업무를 더욱 효율적으로 처리할 수 있게됨
- 하지만 아직은 부족한 multistep reasoning과 specialized expertise 능력을 요구함
- LLM-as-Agent systems는 multistep reasoning에 참여하고, 외부 도구와의 반복적인 상호 작용을 통해 specialized expertise를 습득
- 아직 해당 성능을 평가할 수 있는 표준화된 벤치마크가 부족함
- LegalAgentBench는 이러한 격차를 메우기 위해 중국 법률 영역에서 LLM agents를 평가
- 17개의 specialized corpora
- 외부 지식과 상호 작용할 수 있는 37개의 도구
Focus on Authentic Legal Scenarios
- LLM이 법률 원칙에 대한 확실한 이해
- 복잡한 법률 문제를 해결하기 위한 도구를 적절히 선택하고 활용
Diverse Task Types and Difficulty Levels
- 다양한 작업 유형과 난이도
- Scalable task construction 프레임워크
- Planning tree를 구성
- hierarchical sampling과 maximum coverage strategy을 통해 작업을 선택
- 300개의 distinct tasks, including multi-hop reasoning과 writing tasks로 구성
Fine-Grained Evaluation Metrics
- 최종 성공률에만 평가 기준만으로 평가하지 않음
- 중간 단계의 주석을 통해 프로세스 비율로 세분화된 평가
- Agent의 능력에 대한 자세한 평가 가능
- 최종 결과 외에도 개선이 필요한 영역을 식별 가능
2. Related Work
2.1 LLM Agents
- 어려운 task를 해결하기 위해 더 작은 step으로 분할하여 agent의 능력을 향상시킴
- ReAct는 추론과 행동을 분리하여 사고 단계와 행동 단계를 번갈아 가며 복잡한 작업의 계획 효율성을 크게 향상시킴
- 외부 도구(계산기, 검색 엔진, 도메인별 API)를 적절히 호출하여 복잡한 작업을 효율적으로 해결할 수 있음
- HuggingGPT는복잡한 작업을 하위 작업으로 분해하고 적절한 전문 모델을 호출하며 결과를 통합하여 최종 응답을 생성하는 컨트롤러로 LLM을 배치
- LLM+P는 LLM을 PDDL(Planning Domain Definition Language)에 기반한 symbolic planner와 결합하여 LLM을 활용하여 PDDL 구문으로 문제를 공식화하고 planning solver를 사용하여 솔루션 생성
2.2 Benchmarks on LLM Agents
- AgentBench는 운영 체제, 데이터베이스, 지식 그래프 등 8개의 영역에 대한 벤치마크로, multi-turn open-ended generation setting에서 LLM agent 평가
- AgentBoard는 multi-turn interactions에서 LLM agent 평가
- ToolQA는 외부 도구와 참고 자료가 필요하도록 설계된 8개 영역과 13개 도구를 다루어, 모델의 내부 지식에만 의존하는 것을 방지하여 LLM의 도구 사용 능력을 평가
- T-Eval은 LLM의 도구 활용 능력을 계획, 추론, 검색, 이해, 지시 실행, 결과 평가의 여섯 가지로 분류하여 외부 도구를 사용하는 LLM의 능력을 평가
- 주로 일반적인 LLM 능력을 평가하는 데 초점을 맞추고 있어, 법률, 의학 등과 같은 domain에 대한 능력을 평가하기 힘듦
3. LegalAgentBench
Corpora and Tools
(1) Corpora
- 총 17개의 실제 법률 데이터를 활용
- 14개는 표 형식의 데이터베이스로 구성되어 있어, 기업 정보, 법원 정보, 법률 사건 등 다양한 조회 용도의 데이터
- 3개는 문서 컬렉션 형태로, 법률 지식, 법률 조항, 그리고 판례와 같은 자료를 검색 가능
- 실제 법률 현장의 다양한 상황을 반영하며, 시간이 지남에 따라 업데이트되어 LLM이 과적합되는 것을 방지
(2) Tools
- Text Retrievers: 문서 컬렉션에서 관련 문서를 검색하며, 기본적으로 Embedding-3을 사용하여 질의와 관련된 문서를 반환
- Mathematical Tools: 기본적인 산술 연산(덧셈, 뺄셈, 곱셈, 나눗셈)뿐 아니라 데이터 정렬이나 최대/최소값 계산 등 복잡한 수학적 처리를 수행
- Database Tools: 각 표 형식 데이터베이스에서 미리 정의된 질의를 통해 필요한 정보를 추출
- System Tools: 'Finish' 도구만 포함되어 있으며, 이를 통해 실행 피드백을 파싱하고 최종 결과를 반환
Tasks
(1) Task Definition
- LLM 에이전트는 각 시점($t$)마다 행동($a_t$)을 수행하고, 그 결과로 피드백($o_t$)을 받으며, 이를 바탕으로 내부 상태($s_t$)를 업데이트
- 이 반복 과정은 태스크가 완료되거나 미리 정해진 최대 반복 횟수($T$)에 도달할 때까지 계속됨
- 난이도와 유형이 다양한 300개의 task
- key_answer: 최종 결과의 성공률을 평가하는 데 사용되는 답변의 키워드
- key_middle: 작업 해결의 중간 단계에 있는 키워드를 의미하며, 보다 세분화된 평가를 제공하고, 이러한 키워드는 성공적인 도구 호출에서 반환된 관찰 결과에서 파생됨
- Path: 과제 해결을 위한 올바른 솔루션 경로로, 길수록 과제와 관련된 난이도가 높다는 뜻
(2) Task Construction
Planning Tree Construction
- 사용 가능한 도구들의 호출 관계를 바탕으로 계획 트리를 만듦
- 트리의 루트는 미지의 엔티티(태스크의 시작점)를 나타내며, 각 분기는 특정 도구의 사용 결과로 채워짐
- 각 경로(leaf node)는 task의 최종 요구사항을 반영
Path Selection:
- 계획 트리에서 다양한 깊이(1-hop부터 5-hop까지)의 솔루션 경로를 선택해, 태스크의 난이도와 유형을 다양하게 구성
- 경로의 깊이는 태스크 해결의 복잡도를, 넓이는 태스크 유형의 다양성을 나타냄
- Serial Solution Paths
- 도구들을 한 단계씩 순서대로 호출하여 해결 경로를 구성합니다.
- 예를 들어, 1-hop부터 5-hop까지의 연속적인 단계가 있으며, 각 단계는 이전 도구 호출의 결과를 기반으로 다음 도구를 선택
- 경로의 깊이가 클수록 복잡한 문제 해결을 요구하므로, 난이도가 상승
- Parallel Solution Paths
- 동시에 여러 도구를 호출하여 서로 다른 정보나 결과를 동시에 수집
- 예를 들어, 변론서를 작성하는 task에서는 피고, 원고, 그리고 관련 법률 지식을 동시에 조회하여 종합적으로 활용
- 여러 정보를 병렬로 수집해 하나의 최종 결과로 통합하므로, 복합적인 문제 상황에 적합
- 각 병렬 경로는 독립적으로 정보를 수집한 후, 최종적으로 결합되어 문제 해결에 기여
Entity Selection:
- 솔루션 경로에 따라 적합한 entity(예: 기업, 법원 등)를 선택해 구체적인 질문을 구성
- 모든 초기 entity가 원하는 결과를 내지 않을 수 있으므로, 성공적으로 도구 호출이 이루어진 두 개의 entity를 선택
Question Rewriting:
- 자동으로 생성된 다중 hop 질문은 실제 사용 사례에 맞추어, 그리고 솔루션 경로가 직접 노출되지 않도록 GPT-4를 활용해 자연스럽게 재작성
Answers Generation:
- 각 질문에 대해, 해당 솔루션 경로에 따른 도구 체인을 이용해 참조 코퍼스로부터 정답을 자동으로 추출
Human Verification:
- 생성된 질문, 솔루션 경로, 그리고 정답은 수동 검증을 통해 수정·보완되며, 실사용 환경에 부합하는지 확인
(3) Task Evaluation
- Success Rate: 도구 호출 결과에서 추출된 키워드(key_answer)와 모델의 출력이 얼마나 겹치는지 측정하여 최종 성공률을 계산
- Progress Rate: 최종 정답뿐 아니라, 문제 해결 중간 단계에서의 키워드(key_middle)를 이용해 진행률(progress rate)을 산출 (세밀한 평가 가능)
(4) Task Statistics
4. Experiment
Experiment Setup
- 각 모델은 세 가지 방식으로 실험
- Plan-and-Solve (P-S): 미리 계획을 세우고 순차적으로 실행
- Plan-and-Execute (P-E): 다단계 계획 후 순차적 실행 및 재평가
- ReAct: 생각-행동-관찰 사이클을 통해 점진적으로 문제 해결
- Task를 받을 때 필요한 도구를 선택하고, 도구 호출 후 피드백을 받아 내부 상태를 업데이트하며 문제를 해결
- 'Finish'(System Tools) 도구 호출이나 최대 반복 제한(T=10)에 도달하면 최종 결과를 반환
Metrics
- Success Rate: 최종 답변에 포함된 정답 키워드(key_answer)와 기준 키워드 간의 중복 비율을 통해 평가
- Process Rate: 문제 해결 중간 단계의 키워드(key_middle)와 정답 키워드를 포함한 전체 키워드의 중복 비율을 산출하여, 단계별 진행 상황을 보다 세밀하게 평가
- BERT-Score: 생성된 답변과 기준 답변 사이의 텍스트 유사도를 측정하여 답변의 질과 정확도를 평가
- 토큰 소비량: 각 모델이 문제 해결에 소비한 토큰 수를 참고하여 효율성도 함께 고려
Main Results
- 모델 별, 방법론 별 성능 차이가 표를 통해 비교되며, 일부 모델(GPT-3.5, LLaMA3.1-8B)은 낮은 성공률을 보이고, GLM-4, GLM-4-Plus, Qwen-max, GPT-4o-mini 등의 모델이 상대적으로 좋은 성능을 나타냄
- ReAct 방식은 다중 홉 질문에서 우수한 성능을 보이나, 그에 따른 토큰 소비량이 높음
- 난이도가 증가할수록 모든 모델의 성공률이 저하되는 경향
Analysis
Lack of specialized legal knowledge
- 법충분한 법률 지식이 없으면 정확한 추론 경로를 도출하기 어려움
- 예를 들어, 제출 시간과 재판 시간을 구분하거나 사건 번호의 각 부분이 의미하는 바를 해석하는 데 어려움을 겪음
Insufficient understanding of legal articles and case law
- 많은 법률 문제는 법률 조항과 판례에 근거해 해결되는데, LLM은 이러한 자료의 범위와 논리를 정확히 해석하는 데 한계가 있음
- 관련 자료를 성공적으로 검색해도, 그 내용을 실제 법적 해석 및 적용에 연결하는 데 어려움
Other Error Types
- Argument 오류: 도구를 호출할 때 올바른 인수를 제공하지 못함
- Planning 오류: 잘못된 계획 경로를 생성하거나 부적절한 도구를 사용하는 경우
- 길이 제한 초과: 상호작용 기록과 도구 사용 계획이 길이 제한을 넘어가 태스크 해결을 방해함
- 반복 루프: 동일 문제에 대해 반복적으로 시도하여 최대 반복 횟수에 도달함