[2026-1] 이루가 - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents

NLP

[2026-1] 이루가 - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents

wnfladl 2026. 3. 21. 12:22

논문 링크: https://arxiv.org/abs/2105.03887

Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents

Legal artificial intelligence (LegalAI) aims to benefit legal systems with the technology of artificial intelligence, especially natural language processing (NLP). Recently, inspired by the success of pre-trained language models (PLMs) in the generic domai

arxiv.org

ABSTRACT

Lawformer는 기존 PLM의 입력 길이 한계를 보완하기 위해 Longformer를 법률 도메인에 적용한 중국어 법률 특화 장문서 모델로 긴 법률 문서를 요구하는 여러 LegalAI 태스크에서 성능 향상을 보인 연구다.

1. Introduction

연구 배경

LegalAI는 NLP를 활용해 판결 예측, 판례 검색, 법률 QA 등 법률 업무를 지원하는 분야
최근 PLM의 성공으로 법률 분야에서도 PLM 활용 연구가 활발해짐

기존 연구의 한계

기존 법률 PLM은 주로 일반 PLM을 전이하거나 법률 문서로 추가 사전학습하는 방식
그러나 대부분 full self-attention 기반이라 긴 법률 문서를 처리하기 어려움
실제 형사/민사 사건 문서 평균 길이는 1260.2 토큰으로, 일반 PLM의 입력 한계를 넘는 경우가 많음

논문의 제안

Lawformer: 중국어 장문 법률 문서를 위한 Longformer 기반 사전학습 언어모델
local sliding window attention + global attention을 결합해 긴 문서를 효율적으로 인코딩
저자 주장에 의하면 수천 토큰 법률 문서를 처리하는 최초의 법률 특화 PLM

평가 태스크

판결 예측
유사 판례 검색
법률 독해
법률 질의응답

추가 기여

기존 판결 예측 데이터셋은 형사사건 위주이며 실제 분포와 차이가 있음
이를 보완하기 위해 형사 + 민사 사건을 모두 포함하는 새로운 대규모 데이터셋 구축

핵심 주장

법률 NLP에서 중요한 것은 단순한 도메인 특화가 아니라 장문 처리 능력
Lawformer는 긴 입력 태스크에서 강한 성능을 보였고, 짧은 입력 태스크에서도 경쟁력 있는 결과

2. Related Work

2.1. Legal Artificial Intelligence

LegalAI는 법률 과제를 인공지능으로 해결하려는 분야
법률 데이터가 대부분 텍스트이기 때문에 NLP 연구와 밀접하게 연결됨

기존 연구 흐름

초기: hand-crafted features, 통계적 방법
이후: 딥러닝 기반 법률 태스크 연구 확장
- 죄목 예측
- 법조문 검색
- 판결문/법원 의견 생성
- 법률 독해
- 법률 QA
- 유사 사건 검색

법률 PLM 연구의 한계

최근에는 법률 코퍼스로 사전학습한 PLM도 등장
하지만 대부분 BERT 기반
입력 길이 제한: 512 토큰
따라서 긴 법률 문서를 충분히 처리하기 어려움

Lawformer의 위치

법률 도메인 특화 + 장문 처리 능력을 결합
저자 주장: 법률 장문서를 처리하는 최초의 사전학습 언어모델

2.2. Pre-trained Language Model

PLM의 두 흐름

Domain-adaptive pre-training
Long-document pre-training

1) Domain-adaptive pre-training

일반 PLM을 특정 도메인 텍스트로 추가 사전학습
생의학, 임상, 과학, 법률 등에서 활용
핵심 메시지: 타깃 도메인 코퍼스로 continued pre-training 하면 성능 향상

2) Long-document pre-training

기존 Transformer는 full self-attention 때문에 긴 문서 처리에 비효율적
해결 방향:
- auto-regressive 방식 활용
- sliding window 기반 attention으로 복잡도 감소

3) Lawformer의 선택

기본 인코더로 Longformer 채택
sliding window attention + global attention 결합
목적: 긴 법률 문서를 효율적으로 처리하면서 중요한 전역 정보 유지

4) 이 논문의 위치

법률 도메인 적응 사전학습
장문서 처리 구조
이 두 흐름을 결합한 모델이 바로 Lawformer

3. Our Approach

3.1. Lawformer

Lawformer의 기본 아이디어

기본 인코더로 Longformer 사용
목적: 긴 법률 문서를 효율적으로 처리하기 위해
기존 full self-attention 대신 세 가지 attention 결합
- Sliding window attention
- Dilated sliding window attention
- Global attention

1) Sliding Window Attention

각 토큰은 주변의 일정 범위 토큰만 참조
연산량 감소
여러 레이어를 거치며 점차 넓은 문맥 반영 가능

2) Dilated Sliding Window Attention

sliding window에 간격(dilation)을 둔 방식
더 적은 비용으로 더 먼 문맥까지 포착 가능
head마다 다른 간격 사용 가능 → 표현력 향상

3) Global Attention

일부 중요한 토큰만 전체 문서를 참조
예:
- [CLS] 토큰: 문서 분류
- 질문 토큰: question answering
지역 정보 처리 + 전역 정보 확보를 동시에 달성

핵심 효과

긴 입력을 선형 복잡도로 처리 가능
수천 토큰 길이의 법률 문서 인코딩 가능

3.2. Data Processing

Pre-training Data

데이터 출처: China Judgments Online
규모: 수천만 건의 사건 문서
사용 범위: 형사사건 + 민사사건

Document Processing

각 문서를 4개 부분으로 분리:

당사자 정보
사실관계 설명
법원의 판단
판결 결과

Filtering

사실관계 설명이 50토큰 이하인 문서 제거
너무 짧은 문서를 제외하여 데이터 품질 확보

의미

실제 법률 실무 문서 기반 대규모 코퍼스
Lawformer는 현실적인 중국 법률 문서 분포를 반영한 데이터로 사전학습됨

3.3. Pre-training Details

Pre-training Setup

초기 모델: RoBERTa-wwm-ext
학습 목표: MLM (Masked Language Modeling)
입력 길이: 4096 tokens
법률 문서가 더 짧은 경우: 여러 문서를 이어 붙여 입력 길이 활용

Training Details

Learning rate: 5 × 10⁻⁵
Batch size: 32
Total steps: 200,000
Warm-up: 3,000 steps
Optimizer: Adam
Hardware: 8 × 32GB NVIDIA V100

Fine-tuning Strategy

분류 태스크: [CLS] 토큰에 global attention
독해 / QA 태스크: 질문 전체 토큰에 global attention

핵심 의미

긴 입력 길이를 활용한 법률 도메인 continued pre-training
태스크에 따라 global attention 위치를 달리해 효율적이고 목적지향적인 표현 학습

4. Experiments

4.1. Baseline Models

Baseline Models

BERT-base-chinese
- 중국어 위키피디아 기반 일반 도메인 BERT
- 법률 특화 사전학습 없음
RoBERTa-wwm-ext
- whole word masking 적용한 중국어 RoBERTa
- Lawformer의 초기 checkpoint
Legal RoBERTa (L-RoBERTa)
- RoBERTa를 동일한 법률 코퍼스로 추가 사전학습
- 구조 효과 vs 도메인 효과를 비교하는 핵심 baseline

공통 실험 조건

BERT / RoBERTa / L-RoBERTa는 최대 512토큰만 처리 가능
따라서 긴 법률 문서는 512토큰으로 잘라서 입력
반면 Lawformer는 최대 4096토큰 처리 가능

의미

비교 포인트는 두 가지:
1. 법률 도메인 사전학습의 효과
2. 장문 처리 구조(Longformer)의 효과

4.2. Legal judgment Prediction

Task

입력: 사실관계 설명
출력: 판결 결과 예측
LegalAI의 핵심 응용 과제

기존 데이터셋의 한계

대표 데이터셋 CAIL2018
문제점:
- 실제 사건보다 문서 길이가 짧음
- 형사사건만 포함, 민사사건 제외

제안 데이터셋: CAIL-Long

실제 법률 문서 길이 분포 반영
형사 + 민사 모두 포함
규모:
- 형사: 1,129,053건
- 민사: 1,099,605건

예측 대상

형사사건
- 죄목
- 관련 법조항
- 형량
민사사건
- 소인
- 관련 법조항

학습 방식

멀티태스크 학습
형사/민사 모델은 별도 학습

평가 지표

분류: micro-F1, macro-F1
회귀: log distance

결과 해석

Lawformer가 micro-F1, macro-F1 모두 최고 성능
긴 사실관계 설명에서 핵심 정보 포착에 강점
특히 macro-F1 향상 → 희귀 레이블 처리에 강점
다만 전체 성능은 아직 충분히 높지 않음

4.3. Legal Case Retrieval

Task

입력: query 사건의 사실관계
목표: 유사 판례 검색
법률 도메인의 specialized information retrieval task

Dataset: LeCaRD

Query cases: 107
Candidate cases: 10,716
후보 사건 평균 길이: 6,319.14 tokens
매우 긴 문서 검색이 필요한 challenging benchmark

실험 설정

학습 방식: binary classification
- query case와 candidate case가 관련 있는지 판단
5-fold cross-validation 사용

입력 길이 설정

Baseline
- query: 100
- candidate: 409
Lawformer
- query: 509
- candidate: 3,072
query 전체 토큰에 global attention 적용

평가 지표

NDCG@k
P@k
MAP

결과

Lawformer가 모든 baseline을 크게 상회
특히 MAP +6.59
긴 문서를 더 많이 읽을 수 있다는 구조적 장점이 성능 향상으로 연결됨

한계

후보 사건 평균 길이 6,319.14는 Lawformer 한계보다도 김
즉, 장문 retrieval은 여전히 완전히 해결되지 않음

4.4. Legal Reading Comprehension

Task

법률 문서를 읽고 질문에 답하는 legal reading comprehension
Benchmark: CJRC (2020)

Dataset 특징

9,532 question-answer pairs
supporting sentences 포함
정답 유형:
- span
- yes/no
- unanswerable

중요한 데이터 특성

문서 평균 길이: 441.04 tokens
즉, 장문 처리 필요성이 크지 않은 벤치마크

실험 설정

시작 위치 / 끝 위치 예측
supporting sentence prediction은 binary classification
Lawformer는 질문 전체 토큰에 global attention 적용

평가 지표

결과 해석

L-RoBERTa, Lawformer > BERT, RoBERTa
- 법률 도메인 사전학습 효과 확인
L-RoBERTa ≈ Lawformer
- 문서가 짧아 장문 처리 이점이 크게 드러나지 않음

핵심 메시지

이 태스크에서는 장문 처리보다 도메인 적응 효과가 더 중요
더 긴 RC 데이터셋에서는 Lawformer의 장점이 더 잘 드러날 가능성

4.5. Legal Question Answering

Task

법률 지식을 이해하고 질문에 답하는 legal QA
실용적으로는 법률 상담 시스템과 연결 가능

Dataset: JEC-QA

중국 국가 법조시험 기반
28,641개 객관식 문제
기존 모델에도 어려운 challenging benchmark

실험 설정

태스크를 text classification으로 정식화
질문 + 후보 선택지를 concat하여 입력
linear layer로 각 선택지의 matching score 계산

추가 설정

기존 연구는 BM25 / TF-IDF로 검색한 reading materials를 쓰기도 함
하지만 이 논문은 retrieval 품질이 낮다고 보고 외부 reading materials는 사용하지 않음

결과 해석

L-RoBERTa ≈ Lawformer
이유: 입력이 장문 이해를 크게 요구하지 않음
반면 태스크 자체는 복잡한 법률 추론을 요구함

핵심 메시지

이 태스크에서는 장문 처리보다 법률 지식 + 논리 추론이 더 중요
모든 모델의 성능이 충분히 높지 않음
향후 과제: legal knowledge integration, reasoning capacity 강화

5. Conclusion and Future Work

Lawformer: Longformer 기반 중국어 법률 특화 PLM
형사·민사 판결문 수천만 건으로 사전학습
평가 태스크:
- 판결 예측
- 유사 판례 검색
- 법률 독해
- 법률 질의응답

핵심 결과

긴 입력이 필요한 태스크에서 유의미한 성능 향상
법률 NLP에서는 도메인 특화 + 장문 처리 능력이 중요함을 보여줌

남아 있는 한계

성능 향상에도 불구하고 여전히 해결되지 않은 과제 존재
특히:
- 법률 지식 부족
- 복잡한 논리 추론 한계
- 초장문 문서 처리의 미완성

Future Work

Legal knowledge augmented pre-training
- 명시적 법률 지식 통합
Generative legal pre-trained model
- 문서 작성, 서면 생성 등 실제 법률 실무 지원