[2025-1] 백승우 - Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration

Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration

Weikang Yuan, Junjie Cao, Zhuoren Jiang, Yangyang Kang, Jun Lin, Kaisong Song, Tianqianjin Lin, Pengwei Yan, Changlong Sun, Xiaozhong Liu. Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.

aclanthology.org

Motivations

Legal 분야에서는 LLMs를 이용해서 법 이론을 충분히 이해하고 복잡한 법적 추론 작업을 수행할 수 있는지를 평가하고 개선
기존 연구에서 LLMs는 법적 규칙과 사례 사실을 입력받았을 때, 두 혐의(예를 들어 “Misappropriation of Public Fund”와 “Fund Misappropriation”) 사이의 미묘한 차이를 구분하지 못하고 무조건 “예”라고 답하는 경향이 있었음
이는 실제 법률 현장에서 매우 중요한 차이(ex. 피고가 국가 공무원인지 여부)를 놓치게 하여, 잘못된 판단으로 이어질 수 있다는 문제 존재

그래프에서 GPT-3.5와 GPT-4 모두 동일한 프롬프트 방법을 사용할 때, ‘Golden charge(정답 혐의)’ 예측에서는 비교적 높은 성능을 보이나, ‘Confusing charge(혼동 혐의)’ 예측에서는 성능이 크게 저하됨
이 성능 격차는 LLM들이 법적 규칙에 내포된 미세한 차이와 핵심 포인트를 제대로 파악하지 못한다는 점을 명확히 드러냄
MALR(Multi-Agent framework for improving complex Legal Reasoning capabilty)를 제안하여 LLM들이 복잡한 legal task를 세부적인 하위 과제로 분해하고, 스스로 학습하여 중요한 법률 인사이트를 추출하도록 도움

Methods

실제 법적 판단 과정에서 판사나 LLM이 사례 사실과 법적 규칙을 비교하여 판단을 내리는 과정
“Golden charge”와 “Confusing charge”처럼 유사하지만 미묘한 차이가 있는 혐의를 구분하는 데 있어서, 특히 피고가 국가 공무원인지 여부와 같이 법적 규칙의 핵심 요소(예: 주체, 심리, 객체, 행위)가 얼마나 중요한지를 강조
법적 판단 시, 각 요소를 면밀히 분석하여 올바른 혐의를 도출해야 하는데, LLM들은 종종 이러한 핵심 요소를 간과하고 단순히 “예”라는 답변을 내리는 문제점 존재

Auto-Planner:
- 복잡한 법적 추론 작업을 사례 사실과 법적 규칙에 기반하여 여러 하위 과제로 분해
- 각 법적 요소(예: 주체, 심리 등)를 개별적으로 평가하는 과정과 유사
Role Assignment for Sub-task Agent:
- 분해된 각 하위 과제에 대해 전문화된 LLM 에이전트를 할당하여, 각 요소별로 세밀한 판단을 수행
Adaptive Rule-Insights Training:
- 에이전트들이 반복적인 시행착오를 통해 법 규칙의 핵심 인사이트(예를 들어, 피고가 국가 공무원인지 여부와 같이 결정적인 요소)를 학습하도록 도움
- 핵심 판단 포인트를 강화하는 역할
Reasoning with Rule-Insights:
- 각 하위 과제의 판단 결과를 종합하여 최종 법적 결론을 도출

Results

LLM들이 법 이론에 기반한 complex reasoning을 얼마나 잘 수행하는지 평가
법률 데이터셋: CAIL2018, CJO, CAIL-I

기존의 기법과 제안한 MALR 프레임워크의 여러 변형의 성능을 비교
- 기존의 기법
  - ZS-CoT (Zero-Shot Chain-of-Thought):
    아무런 예시 없이 “Let’s think step by step”와 같은 단서를 제공해, 모델이 스스로 중간 추론 단계를 생성하도록 유도합니다. 이 방식은 추가적인 예시 없이 LLM이 내재된 연쇄적 사고(chain-of-thought)를 활용하도록 돕습니다.
  - LRP (Legal Reasoning Prompting):
    법률 문제에 특화된 제로샷 프롬프트 방법으로, 모델에게 변호사처럼 사고하도록 요구합니다. 보통 ‘Issue, Rule, Application, Conclusion’과 같이 법적 문제의 기본 구성 요소를 따라 분석하도록 유도해, 법 이론에 기반한 체계적인 추론을 촉진합니다.
  - FS-Prompt (Few-Shot Prompting):
    몇 개의 예시(보통 긍정적/부정적 예시 한 쌍)를 제공하여, 모델이 문제에 대한 답변 형식을 학습하도록 하는 방식입니다. 여기서는 중간 추론 단계 없이 단순한 예시를 통해 최종 답변을 유도합니다.
  - FS-CoT (Few-Shot Chain-of-Thought):
    FS-Prompt의 확장으로, 몇 개의 예시와 함께 각 예시에서 추론 과정을 상세하게 보여주는 ‘chain-of-thought’ 단계를 포함합니다. 이를 통해 모델이 중간 추론 단계를 학습하여 더 체계적이고 논리적인 답변을 생성할 수 있도록 합니다.
  - Chain-of-Logic:
    법적 규칙을 여러 요소로 분해하여 각 요소별로 평가한 후, 이를 논리적 표현으로 결합해 최종 결론을 도출하도록 하는 방법입니다. 이는 실제 법률 판단 과정에서 각 법적 요소(예: 주체, 행위 등)를 면밀히 분석하는 방식과 유사하여, 보다 정확한 법적 추론을 가능하게 합니다.
- MALR 프레임워크 변형
  - MALR w/o insight: 하위 과제 분해만 적용한 MALR
  - MALR w/o ask: 외부 피드백 없이 학습
  - MALR
기존 방법들은 특히 혼동 혐의(confusing charge) 예측 시 LLM들이 단순히 “예”라고 응답하는 문제를 보였는데, 이는 법적 규칙에 내포된 미세한 차이를 제대로 반영하지 못함
MALR 기반 방법은 복잡한 법적 규칙을 하위 과제로 분해하고, 반복 학습을 통해 핵심 인사이트를 추출하도록 하여 전반적인 정확도를 크게 향상시킴
- 특히 GPT-4의 경우, 완전한 MALR 적용 시 다른 모든 방법보다 높은 정확도를 기록하며, GPT-3.5에서도 유의미한 개선 효과가 나타남

제안된 adaptive rule-insights training 모듈의 구성 요소들(Successful Experience, Error-Success-Pair Experience, Insight Filtering)의 효과를 검증
각 구성 요소를 제거하거나, 법적 규칙에서 인사이트를 직접 생성하는 방식(directly generate)으로 변경했을 때 성능이 떨어짐을 보여주어, 제안한 각 구성 요소가 전체 시스템 성능에 중요한 역할을 하고 있음을 확인

LRP와 Chain-of-Logic 같은 기존 방법들이 법적 규칙의 중요한 정보를 간과
MALR은 핵심 요소에 집중하여 보다 정교한 추론 과정을 거친 후 정확한 결론을 도출

Conclusion

제안된 MALR 프레임워크가 기존의 단일 LLM 기반 접근 방식보다 법적 추론 능력을 향상시키는 데 효과적임을 입증
특히 미묘한 법적 차이를 정확히 구분하는 데 있어 필수적인 구성 요소들의 중요성 강조

Limitations

MALR 프레임워크가 모든 혼동 혐의(confusing charge) 쌍에서 정확한 예측을 하지 못함
- 일부 사례에서 오류가 발생하며, RAG와 같은 기법을 도입하여 성능을 보완할 수 있음
법적 추론에 초점을 맞추고 있으며, LLM이 self-refine을 통해 법률 규칙의 인사이트를 추출하는 효과를 보임
- 이 방법을 의학, 금융, 과학 등 다른 분야에 적용할 가능성은 아직 탐구되지 않음

'Natural Language Processing' 카테고리의 다른 글

[2025-1] 김지원 - Forecasting price movements using technical indicators: Investigatingthe impact of varying input window length (1)	2025.03.30
[2025-1] 이루가 - GloVe: Global Vectors for Word Representation (0)	2025.03.29
[2025-1] 현시은 - PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers (0)	2025.03.06
[2025-1] 백승우 - A-MEM: Agentic Memory for LLM Agents (0)	2025.03.05
[2025-1] 백승우 - LegalAgentBench: Evaluating LLM Agents in Legal Domain (0)	2025.03.04