Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration
Weikang Yuan, Junjie Cao, Zhuoren Jiang, Yangyang Kang, Jun Lin, Kaisong Song, Tianqianjin Lin, Pengwei Yan, Changlong Sun, Xiaozhong Liu. Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.
aclanthology.org
Motivations
- Legal 분야에서는 LLMs를 이용해서 법 이론을 충분히 이해하고 복잡한 법적 추론 작업을 수행할 수 있는지를 평가하고 개선
- 기존 연구에서 LLMs는 법적 규칙과 사례 사실을 입력받았을 때, 두 혐의(예를 들어 “Misappropriation of Public Fund”와 “Fund Misappropriation”) 사이의 미묘한 차이를 구분하지 못하고 무조건 “예”라고 답하는 경향이 있었음
- 이는 실제 법률 현장에서 매우 중요한 차이(ex. 피고가 국가 공무원인지 여부)를 놓치게 하여, 잘못된 판단으로 이어질 수 있다는 문제 존재
- 그래프에서 GPT-3.5와 GPT-4 모두 동일한 프롬프트 방법을 사용할 때, ‘Golden charge(정답 혐의)’ 예측에서는 비교적 높은 성능을 보이나, ‘Confusing charge(혼동 혐의)’ 예측에서는 성능이 크게 저하됨
- 이 성능 격차는 LLM들이 법적 규칙에 내포된 미세한 차이와 핵심 포인트를 제대로 파악하지 못한다는 점을 명확히 드러냄
- MALR(Multi-Agent framework for improving complex Legal Reasoning capabilty)를 제안하여 LLM들이 복잡한 legal task를 세부적인 하위 과제로 분해하고, 스스로 학습하여 중요한 법률 인사이트를 추출하도록 도움
Methods
- 실제 법적 판단 과정에서 판사나 LLM이 사례 사실과 법적 규칙을 비교하여 판단을 내리는 과정
- “Golden charge”와 “Confusing charge”처럼 유사하지만 미묘한 차이가 있는 혐의를 구분하는 데 있어서, 특히 피고가 국가 공무원인지 여부와 같이 법적 규칙의 핵심 요소(예: 주체, 심리, 객체, 행위)가 얼마나 중요한지를 강조
- 법적 판단 시, 각 요소를 면밀히 분석하여 올바른 혐의를 도출해야 하는데, LLM들은 종종 이러한 핵심 요소를 간과하고 단순히 “예”라는 답변을 내리는 문제점 존재
- Auto-Planner:
- 복잡한 법적 추론 작업을 사례 사실과 법적 규칙에 기반하여 여러 하위 과제로 분해
- 각 법적 요소(예: 주체, 심리 등)를 개별적으로 평가하는 과정과 유사
- Role Assignment for Sub-task Agent:
- 분해된 각 하위 과제에 대해 전문화된 LLM 에이전트를 할당하여, 각 요소별로 세밀한 판단을 수행
- Adaptive Rule-Insights Training:
- 에이전트들이 반복적인 시행착오를 통해 법 규칙의 핵심 인사이트(예를 들어, 피고가 국가 공무원인지 여부와 같이 결정적인 요소)를 학습하도록 도움
- 핵심 판단 포인트를 강화하는 역할
- Reasoning with Rule-Insights:
- 각 하위 과제의 판단 결과를 종합하여 최종 법적 결론을 도출
Results
- LLM들이 법 이론에 기반한 complex reasoning을 얼마나 잘 수행하는지 평가
- 법률 데이터셋: CAIL2018, CJO, CAIL-I
- 기존의 기법과 제안한 MALR 프레임워크의 여러 변형의 성능을 비교
- 기존의 기법
- ZS-CoT (Zero-Shot Chain-of-Thought):
아무런 예시 없이 “Let’s think step by step”와 같은 단서를 제공해, 모델이 스스로 중간 추론 단계를 생성하도록 유도합니다. 이 방식은 추가적인 예시 없이 LLM이 내재된 연쇄적 사고(chain-of-thought)를 활용하도록 돕습니다. - LRP (Legal Reasoning Prompting):
법률 문제에 특화된 제로샷 프롬프트 방법으로, 모델에게 변호사처럼 사고하도록 요구합니다. 보통 ‘Issue, Rule, Application, Conclusion’과 같이 법적 문제의 기본 구성 요소를 따라 분석하도록 유도해, 법 이론에 기반한 체계적인 추론을 촉진합니다. - FS-Prompt (Few-Shot Prompting):
몇 개의 예시(보통 긍정적/부정적 예시 한 쌍)를 제공하여, 모델이 문제에 대한 답변 형식을 학습하도록 하는 방식입니다. 여기서는 중간 추론 단계 없이 단순한 예시를 통해 최종 답변을 유도합니다. - FS-CoT (Few-Shot Chain-of-Thought):
FS-Prompt의 확장으로, 몇 개의 예시와 함께 각 예시에서 추론 과정을 상세하게 보여주는 ‘chain-of-thought’ 단계를 포함합니다. 이를 통해 모델이 중간 추론 단계를 학습하여 더 체계적이고 논리적인 답변을 생성할 수 있도록 합니다. - Chain-of-Logic:
법적 규칙을 여러 요소로 분해하여 각 요소별로 평가한 후, 이를 논리적 표현으로 결합해 최종 결론을 도출하도록 하는 방법입니다. 이는 실제 법률 판단 과정에서 각 법적 요소(예: 주체, 행위 등)를 면밀히 분석하는 방식과 유사하여, 보다 정확한 법적 추론을 가능하게 합니다.
- ZS-CoT (Zero-Shot Chain-of-Thought):
- MALR 프레임워크 변형
- MALR w/o insight: 하위 과제 분해만 적용한 MALR
- MALR w/o ask: 외부 피드백 없이 학습
- MALR
- 기존의 기법
- 기존 방법들은 특히 혼동 혐의(confusing charge) 예측 시 LLM들이 단순히 “예”라고 응답하는 문제를 보였는데, 이는 법적 규칙에 내포된 미세한 차이를 제대로 반영하지 못함
- MALR 기반 방법은 복잡한 법적 규칙을 하위 과제로 분해하고, 반복 학습을 통해 핵심 인사이트를 추출하도록 하여 전반적인 정확도를 크게 향상시킴
- 특히 GPT-4의 경우, 완전한 MALR 적용 시 다른 모든 방법보다 높은 정확도를 기록하며, GPT-3.5에서도 유의미한 개선 효과가 나타남
- 제안된 adaptive rule-insights training 모듈의 구성 요소들(Successful Experience, Error-Success-Pair Experience, Insight Filtering)의 효과를 검증
- 각 구성 요소를 제거하거나, 법적 규칙에서 인사이트를 직접 생성하는 방식(directly generate)으로 변경했을 때 성능이 떨어짐을 보여주어, 제안한 각 구성 요소가 전체 시스템 성능에 중요한 역할을 하고 있음을 확인
- LRP와 Chain-of-Logic 같은 기존 방법들이 법적 규칙의 중요한 정보를 간과
- MALR은 핵심 요소에 집중하여 보다 정교한 추론 과정을 거친 후 정확한 결론을 도출
Conclusion
- 제안된 MALR 프레임워크가 기존의 단일 LLM 기반 접근 방식보다 법적 추론 능력을 향상시키는 데 효과적임을 입증
- 특히 미묘한 법적 차이를 정확히 구분하는 데 있어 필수적인 구성 요소들의 중요성 강조
Limitations
- MALR 프레임워크가 모든 혼동 혐의(confusing charge) 쌍에서 정확한 예측을 하지 못함
- 일부 사례에서 오류가 발생하며, RAG와 같은 기법을 도입하여 성능을 보완할 수 있음
- 법적 추론에 초점을 맞추고 있으며, LLM이 self-refine을 통해 법률 규칙의 인사이트를 추출하는 효과를 보임
- 이 방법을 의학, 금융, 과학 등 다른 분야에 적용할 가능성은 아직 탐구되지 않음