카테고리 없음
[2026-1] 이루가 - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents
wnfladl
2026. 3. 21. 12:22
논문 링크: https://arxiv.org/abs/2105.03887
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents
Legal artificial intelligence (LegalAI) aims to benefit legal systems with the technology of artificial intelligence, especially natural language processing (NLP). Recently, inspired by the success of pre-trained language models (PLMs) in the generic domai
arxiv.org
ABSTRACT
Lawformer는 기존 PLM의 입력 길이 한계를 보완하기 위해 Longformer를 법률 도메인에 적용한 중국어 법률 특화 장문서 모델로 긴 법률 문서를 요구하는 여러 LegalAI 태스크에서 성능 향상을 보인 연구다.
1. Introduction
연구 배경
- LegalAI는 NLP를 활용해 판결 예측, 판례 검색, 법률 QA 등 법률 업무를 지원하는 분야
- 최근 PLM의 성공으로 법률 분야에서도 PLM 활용 연구가 활발해짐
기존 연구의 한계
- 기존 법률 PLM은 주로 일반 PLM을 전이하거나 법률 문서로 추가 사전학습하는 방식
- 그러나 대부분 full self-attention 기반이라 긴 법률 문서를 처리하기 어려움
- 실제 형사/민사 사건 문서 평균 길이는 1260.2 토큰으로, 일반 PLM의 입력 한계를 넘는 경우가 많음
논문의 제안
- Lawformer: 중국어 장문 법률 문서를 위한 Longformer 기반 사전학습 언어모델
- local sliding window attention + global attention을 결합해 긴 문서를 효율적으로 인코딩
- 저자 주장에 의하면 수천 토큰 법률 문서를 처리하는 최초의 법률 특화 PLM
평가 태스크
- 판결 예측
- 유사 판례 검색
- 법률 독해
- 법률 질의응답
추가 기여
- 기존 판결 예측 데이터셋은 형사사건 위주이며 실제 분포와 차이가 있음
- 이를 보완하기 위해 형사 + 민사 사건을 모두 포함하는 새로운 대규모 데이터셋 구축
핵심 주장
- 법률 NLP에서 중요한 것은 단순한 도메인 특화가 아니라 장문 처리 능력
- Lawformer는 긴 입력 태스크에서 강한 성능을 보였고, 짧은 입력 태스크에서도 경쟁력 있는 결과
2. Related Work
2.1. Legal Artificial Intelligence
- LegalAI는 법률 과제를 인공지능으로 해결하려는 분야
- 법률 데이터가 대부분 텍스트이기 때문에 NLP 연구와 밀접하게 연결됨
기존 연구 흐름
- 초기: hand-crafted features, 통계적 방법
- 이후: 딥러닝 기반 법률 태스크 연구 확장
- 죄목 예측
- 법조문 검색
- 판결문/법원 의견 생성
- 법률 독해
- 법률 QA
- 유사 사건 검색
법률 PLM 연구의 한계
- 최근에는 법률 코퍼스로 사전학습한 PLM도 등장
- 하지만 대부분 BERT 기반
- 입력 길이 제한: 512 토큰
- 따라서 긴 법률 문서를 충분히 처리하기 어려움
Lawformer의 위치
- 법률 도메인 특화 + 장문 처리 능력을 결합
- 저자 주장: 법률 장문서를 처리하는 최초의 사전학습 언어모델
2.2. Pre-trained Language Model
PLM의 두 흐름
- Domain-adaptive pre-training
- Long-document pre-training
1) Domain-adaptive pre-training
- 일반 PLM을 특정 도메인 텍스트로 추가 사전학습
- 생의학, 임상, 과학, 법률 등에서 활용
- 핵심 메시지: 타깃 도메인 코퍼스로 continued pre-training 하면 성능 향상
2) Long-document pre-training
- 기존 Transformer는 full self-attention 때문에 긴 문서 처리에 비효율적
- 해결 방향:
- auto-regressive 방식 활용
- sliding window 기반 attention으로 복잡도 감소
3) Lawformer의 선택
- 기본 인코더로 Longformer 채택
- sliding window attention + global attention 결합
- 목적: 긴 법률 문서를 효율적으로 처리하면서 중요한 전역 정보 유지
4) 이 논문의 위치
- 법률 도메인 적응 사전학습
- 장문서 처리 구조
- 이 두 흐름을 결합한 모델이 바로 Lawformer
3. Our Approach
3.1. Lawformer
Lawformer의 기본 아이디어
- 기본 인코더로 Longformer 사용
- 목적: 긴 법률 문서를 효율적으로 처리하기 위해
- 기존 full self-attention 대신 세 가지 attention 결합
- Sliding window attention
- Dilated sliding window attention
- Global attention
1) Sliding Window Attention
- 각 토큰은 주변의 일정 범위 토큰만 참조
- 연산량 감소
- 여러 레이어를 거치며 점차 넓은 문맥 반영 가능
2) Dilated Sliding Window Attention
- sliding window에 간격(dilation)을 둔 방식
- 더 적은 비용으로 더 먼 문맥까지 포착 가능
- head마다 다른 간격 사용 가능 → 표현력 향상
3) Global Attention
- 일부 중요한 토큰만 전체 문서를 참조
- 예:
- [CLS] 토큰: 문서 분류
- 질문 토큰: question answering
- 지역 정보 처리 + 전역 정보 확보를 동시에 달성
핵심 효과
- 긴 입력을 선형 복잡도로 처리 가능
- 수천 토큰 길이의 법률 문서 인코딩 가능

3.2. Data Processing
Pre-training Data
- 데이터 출처: China Judgments Online
- 규모: 수천만 건의 사건 문서
- 사용 범위: 형사사건 + 민사사건
Document Processing
각 문서를 4개 부분으로 분리:
- 당사자 정보
- 사실관계 설명
- 법원의 판단
- 판결 결과
Filtering
- 사실관계 설명이 50토큰 이하인 문서 제거
- 너무 짧은 문서를 제외하여 데이터 품질 확보
의미
- 실제 법률 실무 문서 기반 대규모 코퍼스
- Lawformer는 현실적인 중국 법률 문서 분포를 반영한 데이터로 사전학습됨

3.3. Pre-training Details
Pre-training Setup
- 초기 모델: RoBERTa-wwm-ext
- 학습 목표: MLM (Masked Language Modeling)
- 입력 길이: 4096 tokens
- 법률 문서가 더 짧은 경우: 여러 문서를 이어 붙여 입력 길이 활용
Training Details
- Learning rate: 5 × 10⁻⁵
- Batch size: 32
- Total steps: 200,000
- Warm-up: 3,000 steps
- Optimizer: Adam
- Hardware: 8 × 32GB NVIDIA V100
Fine-tuning Strategy
- 분류 태스크: [CLS] 토큰에 global attention
- 독해 / QA 태스크: 질문 전체 토큰에 global attention
핵심 의미
- 긴 입력 길이를 활용한 법률 도메인 continued pre-training
- 태스크에 따라 global attention 위치를 달리해 효율적이고 목적지향적인 표현 학습
4. Experiments
4.1. Baseline Models
Baseline Models
- BERT-base-chinese
- 중국어 위키피디아 기반 일반 도메인 BERT
- 법률 특화 사전학습 없음
- RoBERTa-wwm-ext
- whole word masking 적용한 중국어 RoBERTa
- Lawformer의 초기 checkpoint
- Legal RoBERTa (L-RoBERTa)
- RoBERTa를 동일한 법률 코퍼스로 추가 사전학습
- 구조 효과 vs 도메인 효과를 비교하는 핵심 baseline
공통 실험 조건
- BERT / RoBERTa / L-RoBERTa는 최대 512토큰만 처리 가능
- 따라서 긴 법률 문서는 512토큰으로 잘라서 입력
- 반면 Lawformer는 최대 4096토큰 처리 가능
의미
- 비교 포인트는 두 가지:
- 법률 도메인 사전학습의 효과
- 장문 처리 구조(Longformer)의 효과
4.2. Legal judgment Prediction
Task
- 입력: 사실관계 설명
- 출력: 판결 결과 예측
- LegalAI의 핵심 응용 과제
기존 데이터셋의 한계
- 대표 데이터셋 CAIL2018
- 문제점:
- 실제 사건보다 문서 길이가 짧음
- 형사사건만 포함, 민사사건 제외
제안 데이터셋: CAIL-Long
- 실제 법률 문서 길이 분포 반영
- 형사 + 민사 모두 포함
- 규모:
- 형사: 1,129,053건
- 민사: 1,099,605건
예측 대상
- 형사사건
- 죄목
- 관련 법조항
- 형량
- 민사사건
- 소인
- 관련 법조항
학습 방식
- 멀티태스크 학습
- 형사/민사 모델은 별도 학습
평가 지표
- 분류: micro-F1, macro-F1
- 회귀: log distance
결과 해석
- Lawformer가 micro-F1, macro-F1 모두 최고 성능
- 긴 사실관계 설명에서 핵심 정보 포착에 강점
- 특히 macro-F1 향상 → 희귀 레이블 처리에 강점
- 다만 전체 성능은 아직 충분히 높지 않음

4.3. Legal Case Retrieval
Task
- 입력: query 사건의 사실관계
- 목표: 유사 판례 검색
- 법률 도메인의 specialized information retrieval task
Dataset: LeCaRD
- Query cases: 107
- Candidate cases: 10,716
- 후보 사건 평균 길이: 6,319.14 tokens
- 매우 긴 문서 검색이 필요한 challenging benchmark
실험 설정
- 학습 방식: binary classification
- query case와 candidate case가 관련 있는지 판단
- 5-fold cross-validation 사용
입력 길이 설정
- Baseline
- query: 100
- candidate: 409
- Lawformer
- query: 509
- candidate: 3,072
- query 전체 토큰에 global attention 적용
평가 지표
- NDCG@k
- P@k
- MAP
결과
- Lawformer가 모든 baseline을 크게 상회
- 특히 MAP +6.59
- 긴 문서를 더 많이 읽을 수 있다는 구조적 장점이 성능 향상으로 연결됨
한계
- 후보 사건 평균 길이 6,319.14는 Lawformer 한계보다도 김
- 즉, 장문 retrieval은 여전히 완전히 해결되지 않음

4.4. Legal Reading Comprehension
Task
- 법률 문서를 읽고 질문에 답하는 legal reading comprehension
- Benchmark: CJRC (2020)
Dataset 특징
- 9,532 question-answer pairs
- supporting sentences 포함
- 정답 유형:
- span
- yes/no
- unanswerable
중요한 데이터 특성
- 문서 평균 길이: 441.04 tokens
- 즉, 장문 처리 필요성이 크지 않은 벤치마크
실험 설정
- 시작 위치 / 끝 위치 예측
- supporting sentence prediction은 binary classification
- Lawformer는 질문 전체 토큰에 global attention 적용
평가 지표
- EM
- F1
결과 해석
- L-RoBERTa, Lawformer > BERT, RoBERTa
- 법률 도메인 사전학습 효과 확인
- L-RoBERTa ≈ Lawformer
- 문서가 짧아 장문 처리 이점이 크게 드러나지 않음
핵심 메시지
- 이 태스크에서는 장문 처리보다 도메인 적응 효과가 더 중요
- 더 긴 RC 데이터셋에서는 Lawformer의 장점이 더 잘 드러날 가능성

4.5. Legal Question Answering
Task
- 법률 지식을 이해하고 질문에 답하는 legal QA
- 실용적으로는 법률 상담 시스템과 연결 가능
Dataset: JEC-QA
- 중국 국가 법조시험 기반
- 28,641개 객관식 문제
- 기존 모델에도 어려운 challenging benchmark
실험 설정
- 태스크를 text classification으로 정식화
- 질문 + 후보 선택지를 concat하여 입력
- linear layer로 각 선택지의 matching score 계산
추가 설정
- 기존 연구는 BM25 / TF-IDF로 검색한 reading materials를 쓰기도 함
- 하지만 이 논문은 retrieval 품질이 낮다고 보고 외부 reading materials는 사용하지 않음
결과 해석
- L-RoBERTa ≈ Lawformer
- 이유: 입력이 장문 이해를 크게 요구하지 않음
- 반면 태스크 자체는 복잡한 법률 추론을 요구함
핵심 메시지
- 이 태스크에서는 장문 처리보다 법률 지식 + 논리 추론이 더 중요
- 모든 모델의 성능이 충분히 높지 않음
- 향후 과제: legal knowledge integration, reasoning capacity 강화

5. Conclusion and Future Work
- Lawformer: Longformer 기반 중국어 법률 특화 PLM
- 형사·민사 판결문 수천만 건으로 사전학습
- 평가 태스크:
- 판결 예측
- 유사 판례 검색
- 법률 독해
- 법률 질의응답
핵심 결과
- 긴 입력이 필요한 태스크에서 유의미한 성능 향상
- 법률 NLP에서는 도메인 특화 + 장문 처리 능력이 중요함을 보여줌
남아 있는 한계
- 성능 향상에도 불구하고 여전히 해결되지 않은 과제 존재
- 특히:
- 법률 지식 부족
- 복잡한 논리 추론 한계
- 초장문 문서 처리의 미완성
Future Work
- Legal knowledge augmented pre-training
- 명시적 법률 지식 통합
- Generative legal pre-trained model
- 문서 작성, 서면 생성 등 실제 법률 실무 지원