[2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities

등장 배경

기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.
But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.

논문 목적

사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄
이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함

문제 상황

누출률 낮음 → 탐지율 하락
- 누출률과 재현율은 별개의 지표인데, 사전 학습 데이터에 누출 인스턴스가 적으면, 모델이 누출률을 잘 못 잡아냄
- 기존 탐지 방법들의 (NLL, Min-K, Zlib, SaMIA) 한계
→ Few-shot Detection 제안!

기존 탐지 방법들

NLL (Negative log-likelihood)
- 특정 정답 텍스트가 나올 확률이 높을수록 작아짐
- 모델이 해당 텍스트를 자신있게 예측 → NLL 감소
Min-K
- 가장 예측이 어려운 k% 토큰으로 누수 여부를 판단함
- 판단 과정
  - 주어진 문장을 LLM이 생성할 때 토큰마다 생성 확률을 계산
  - 그 중에서 가장 낮은 k% 토큰만 추려냄
  - 추려낸 토큰들의 평균 값을 계산
  - 그 값이 임계점을 넘으면 누수 의심

→ 단순히 토큰 값만 활용해서 공통 단어가 많으면 오탐 가능성 높음

→ DC-PDD가 등장한 이유 (Pretraining Data Detection for LLM: A Divergence-based-Calibration Method)

Zlib
- 텍스트의 압축률을 이용해 누수 가능성을 파악함
- LLM이 사전 학습 중 어떤 문장을 통으로 학습 → 문장을 다시 생성할 때 반복 패턴이 많거나, 이미 자주 등장한 것들의 재조합일 확률이 높음 → 압축률 높음
- 단점
  - 텍스트가 변형 없이 기억된 경우에 적합
  - 일반적인 문자열 압축 알고리즘이기 때문에 자연어 의미 기반 유사성 고려 못함
SaMIA
- 모델에서 샘플링한 출력과 대상 텍스트를 비교해 n-gram 일치율로 탐지

핵심 키워드

Few-shot Detection
- LLM에게 몇 개의 예시를 보여주고, 예시 기반 답을 유도하는 방식
- 누수, 비누수 사례들을 모델에 보여주고 구분하도록 학습시키자!

실험 설계

지표
- Leakage Rate
  - 사전 학습 데이터에 누출 인스턴스가 포함된 비율
- Reproduction Rate
  - 사전 학습 데이터에 들어 있던 누출 인스턴스 중 LLM이 실제로 재현(출력)하는 비율
- Detection Rate
  - 누출/비누출 인스턴스를 올바르게 구분하는 성능
대상 LLM의 사전 학습 데이터셋
- 본 논문에서는 각각의 LLM에 포함된 사전 학습 데이터를 바탕으로 PI, CT, BM 데이터의 누출율을 측정함
데이터 유형
- 개인정보 (PI)
- 저작권 텍스트 (CT)
- 벤치마크 (BM)

누출 인스턴스 구성 방법

패턴이 있는 개인정보
- IP address, IBAN code, US SSN, email addresses, phone numbers, card numbers
- regular expressions를 이용해 publicly available pretraining corpora에서 추출함
  - 형식이 일정한 개인정보를 효율적으로 찾을 수 있음
패턴이 없는 개인정보 (이름)
- NER (Named Entity Recognition) 사용해 publicly available pretraining corpora에서 추출함
  - 문장에서 사람, 장소, 조직 등 특정 실체를 식별하는 NLP 기법
  - ex) Steve Jobs founded Apple in California.단어 entity 유형
    
    Steve Jobs Person
    
    Apple organization
    
    California Location
CT
- Google Books, Google News, Google Scholar에서 크롤링 (Selenium 활용)
- CT에 대한 데이터 누출은 약 50 단어 이상 매칭이 기준
- → 그 이하 텍스트는 배제함
BM

Hugging Face 데이터베이스에서 다운로드 상위 128개의 dev/test dataset을 수집
약 20만 인스턴스 데이터 스토어 구성

Leakage Rate 계산 방식

$$ Leakage~Rate= \frac{total~size~of~leaked~instances}{total~data~size} $$

dataset 마다 instance 크기가 다르기 때문에 token 단위 data size 비율로 계산함

Reproduction Rate

재현율 측정을 위한 데이터 구성
- Leaked text
  - 누출 인스턴스 PI,CT,BM 에서 각각 10만 개씩 샘플링 후 평가용으로 사용
  - GPT-4에 “이 leaked text를 뽑아내게 하는 프롬프트를 만들어 달라”는 프롬프트를 few-shot(예시 8개)와 함께 주어 프롬프트를 자동 생성.
  - 프롬프트 민감도를 줄이기 위해 인스턴스당 4개 프롬프트를 만들고 정확도(모델이 그 텍스트를 출력)를 평균함. = 누출 텍스트 출력 평균값
  - 최종 데이터 크기: PI 9,011 / CT 7,702 / BM 8,155. = 누출 데이터셋
- Denied text
  - “해당 내용에 답변할 수 없습니다” 류의 거부 응답 8개를 따로 준비함 (기존 거부 응답 데이터셋에서 샘플)
  - 8개 거부 응답 출력 평균값을 계산함 = 거부 응답 평균값
Reproduction
누출 텍스트 평균 > 거부 응답 평균 → 재현됨으로 판정
Reproduction Rate 계산
$$ Reproduction~Rate= \frac{total~size~of~reproduction~instances}{total~size~of~instances} $$

Detection Rate

Non-leaked 데이터셋 구성

누출 데이터셋과 1:1 대응되게 생성함
PI: 숫자 치환(random digits), 이름/주소 재작성(GPT-4)
CT/BM: GPT-4로 paraphrase → PI 재작성 규칙 적용
exact match로 생성물이 사전 학습/tuning data에 정확 일치가 없는지 확인

계산 방법

$$ Detection~Rate= \frac{total~size~of~correctly~detected~instances}{total~size~of~instances} $$

Few-shot Detection 도입

leakage and non-leakage 인스턴스를 각각 8개씩, 총 16개를 예시로 prompt에 포함해 LLM에 탐지 과제를 명시적으로 정의함

2. 인스턴스에 대해 LLM이 yes or no 중 더 확률 높은 쪽을 출력 → 탐지 결과로 사용

실험

환경 설정

eight NVIDIA A 100 GPUs

hugginface implements

25 models as LLM (T5, LLaMa, Pythia, MPT, Falcon, OLMo…)

models list

Baselines of Leakage Detection

본 논문에서는 기존 탐지 기법 (LOSS, PPL/zlib, Min-K, SaMia) 에서 제안된 하이퍼파라미터를 그대로 사용함

실험 결과

PI: 탐지율이 가장 높음 - 누출률이 높아서 모델이 더 쉽게 구분함
CT와 BM은 누출률이 낮아 탐지율도 낮음
모델 크기가 커질수록 탐지 성능 증가
인스트럭션 튜닝 여부는 성능에 큰 영향 없음

비교 결과

Few-shot Detection이 모든 탐지 기법 중에서 가장 높은 성능을 기록함
특히 PI/CT에서 안정적 우위를 보임
다른 기법들은 누출률이 낮을 때 급격히 성능이 떨어짐

요약

기존 방법: LOSS, PPL/zlib, Min-K%, SaMIA → 확률·압축·샘플링 기반.
한계: 공통 단어/낮은 누출률 상황에서 탐지 성능 급락.
새 제안: Few-shot Detection → 누출/비누출 예시 제공, “yes/no” 분류 태스크로 변환.
결과: Few-shot Detection이 누출률·데이터 유형·모델 크기와 상관없이 가장 안정적.등장 배경

'Natural Language Processing' 카테고리의 다른 글

[2025-2] 정인아 - PaCoST: Paired Confidence Significance Testing for BenchmarkContamination Detection in Large Language Models (0)	2025.09.06
[2025-2] 박지원 - Benchmark Inflation: Revealing LLM PerformanceGaps Using Retro-Holdouts (0)	2025.09.04
[2025-2] Min-K%++ (1)	2025.08.31
[2025-2] 백승우 -Theory of Mind (0)	2025.08.07
[2025-2] 백승우 - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs (1)	2025.07.29

Steve Jobs	Person
Apple	organization
California	Location