등장 배경
- 기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.
- But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.
논문 목적
- 사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄
- 이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함
문제 상황
- 누출률 낮음 → 탐지율 하락
- 누출률과 재현율은 별개의 지표인데, 사전 학습 데이터에 누출 인스턴스가 적으면, 모델이 누출률을 잘 못 잡아냄
- 기존 탐지 방법들의 (NLL, Min-K, Zlib, SaMIA) 한계
기존 탐지 방법들
- NLL (Negative log-likelihood)
- 특정 정답 텍스트가 나올 확률이 높을수록 작아짐
- 모델이 해당 텍스트를 자신있게 예측 → NLL 감소
- Min-K
- 가장 예측이 어려운 k% 토큰으로 누수 여부를 판단함
- 판단 과정
- 주어진 문장을 LLM이 생성할 때 토큰마다 생성 확률을 계산
- 그 중에서 가장 낮은 k% 토큰만 추려냄
- 추려낸 토큰들의 평균 값을 계산
- 그 값이 임계점을 넘으면 누수 의심
→ 단순히 토큰 값만 활용해서 공통 단어가 많으면 오탐 가능성 높음
→ DC-PDD가 등장한 이유 (Pretraining Data Detection for LLM: A Divergence-based-Calibration Method)
- Zlib
- 텍스트의 압축률을 이용해 누수 가능성을 파악함
- LLM이 사전 학습 중 어떤 문장을 통으로 학습 → 문장을 다시 생성할 때 반복 패턴이 많거나, 이미 자주 등장한 것들의 재조합일 확률이 높음 → 압축률 높음
- 단점
- 텍스트가 변형 없이 기억된 경우에 적합
- 일반적인 문자열 압축 알고리즘이기 때문에 자연어 의미 기반 유사성 고려 못함
- SaMIA
- 모델에서 샘플링한 출력과 대상 텍스트를 비교해 n-gram 일치율로 탐지
핵심 키워드
- Few-shot Detection
- LLM에게 몇 개의 예시를 보여주고, 예시 기반 답을 유도하는 방식
- 누수, 비누수 사례들을 모델에 보여주고 구분하도록 학습시키자!
실험 설계
- 지표
- Leakage Rate
- 사전 학습 데이터에 누출 인스턴스가 포함된 비율
- Reproduction Rate
- 사전 학습 데이터에 들어 있던 누출 인스턴스 중 LLM이 실제로 재현(출력)하는 비율
- Detection Rate
- 누출/비누출 인스턴스를 올바르게 구분하는 성능
- Leakage Rate
- 대상 LLM의 사전 학습 데이터셋
- 본 논문에서는 각각의 LLM에 포함된 사전 학습 데이터를 바탕으로 PI, CT, BM 데이터의 누출율을 측정함
- 본 논문에서는 각각의 LLM에 포함된 사전 학습 데이터를 바탕으로 PI, CT, BM 데이터의 누출율을 측정함
- 데이터 유형
- 개인정보 (PI)
- 저작권 텍스트 (CT)
- 벤치마크 (BM)
누출 인스턴스 구성 방법
- 패턴이 있는 개인정보
- IP address, IBAN code, US SSN, email addresses, phone numbers, card numbers
- regular expressions를 이용해 publicly available pretraining corpora에서 추출함
- 형식이 일정한 개인정보를 효율적으로 찾을 수 있음
- 패턴이 없는 개인정보 (이름)
- NER (Named Entity Recognition) 사용해 publicly available pretraining corpora에서 추출함
- 문장에서 사람, 장소, 조직 등 특정 실체를 식별하는 NLP 기법
- ex) Steve Jobs founded Apple in California.단어 entity 유형
Steve Jobs Person Apple organization California Location
- NER (Named Entity Recognition) 사용해 publicly available pretraining corpora에서 추출함
- CT
- Google Books, Google News, Google Scholar에서 크롤링 (Selenium 활용)
- CT에 대한 데이터 누출은 약 50 단어 이상 매칭이 기준
- → 그 이하 텍스트는 배제함
- BM
- Hugging Face 데이터베이스에서 다운로드 상위 128개의 dev/test dataset을 수집
- 약 20만 인스턴스 데이터 스토어 구성
Leakage Rate 계산 방식
$$ Leakage~Rate= \frac{total~size~of~leaked~instances}{total~data~size} $$
- dataset 마다 instance 크기가 다르기 때문에 token 단위 data size 비율로 계산함
Reproduction Rate
- 재현율 측정을 위한 데이터 구성
- Leaked text
- 누출 인스턴스 PI,CT,BM 에서 각각 10만 개씩 샘플링 후 평가용으로 사용
- GPT-4에 “이 leaked text를 뽑아내게 하는 프롬프트를 만들어 달라”는 프롬프트를 few-shot(예시 8개)와 함께 주어 프롬프트를 자동 생성.
- 프롬프트 민감도를 줄이기 위해 인스턴스당 4개 프롬프트를 만들고 정확도(모델이 그 텍스트를 출력)를 평균함. = 누출 텍스트 출력 평균값
- 최종 데이터 크기: PI 9,011 / CT 7,702 / BM 8,155. = 누출 데이터셋
- Denied text
- “해당 내용에 답변할 수 없습니다” 류의 거부 응답 8개를 따로 준비함 (기존 거부 응답 데이터셋에서 샘플)
- 8개 거부 응답 출력 평균값을 계산함 = 거부 응답 평균값
- Leaked text
- Reproduction
누출 텍스트 평균 > 거부 응답 평균 → 재현됨으로 판정 - Reproduction Rate 계산
$$ Reproduction~Rate= \frac{total~size~of~reproduction~instances}{total~size~of~instances} $$
Detection Rate
Non-leaked 데이터셋 구성
- 누출 데이터셋과 1:1 대응되게 생성함
- PI: 숫자 치환(random digits), 이름/주소 재작성(GPT-4)
- CT/BM: GPT-4로 paraphrase → PI 재작성 규칙 적용
- exact match로 생성물이 사전 학습/tuning data에 정확 일치가 없는지 확인
계산 방법
$$ Detection~Rate= \frac{total~size~of~correctly~detected~instances}{total~size~of~instances} $$
Few-shot Detection 도입
- leakage and non-leakage 인스턴스를 각각 8개씩, 총 16개를 예시로 prompt에 포함해 LLM에 탐지 과제를 명시적으로 정의함
2. 인스턴스에 대해 LLM이 yes or no 중 더 확률 높은 쪽을 출력 → 탐지 결과로 사용
실험
환경 설정
eight NVIDIA A 100 GPUs
hugginface implements
25 models as LLM (T5, LLaMa, Pythia, MPT, Falcon, OLMo…)
models list
Baselines of Leakage Detection
본 논문에서는 기존 탐지 기법 (LOSS, PPL/zlib, Min-K, SaMia) 에서 제안된 하이퍼파라미터를 그대로 사용함
실험 결과
- PI: 탐지율이 가장 높음 - 누출률이 높아서 모델이 더 쉽게 구분함
- CT와 BM은 누출률이 낮아 탐지율도 낮음
- 모델 크기가 커질수록 탐지 성능 증가
- 인스트럭션 튜닝 여부는 성능에 큰 영향 없음
비교 결과
- Few-shot Detection이 모든 탐지 기법 중에서 가장 높은 성능을 기록함
- 특히 PI/CT에서 안정적 우위를 보임
- 다른 기법들은 누출률이 낮을 때 급격히 성능이 떨어짐
요약
- 기존 방법: LOSS, PPL/zlib, Min-K%, SaMIA → 확률·압축·샘플링 기반.
- 한계: 공통 단어/낮은 누출률 상황에서 탐지 성능 급락.
- 새 제안: Few-shot Detection → 누출/비누출 예시 제공, “yes/no” 분류 태스크로 변환.
- 결과: Few-shot Detection이 누출률·데이터 유형·모델 크기와 상관없이 가장 안정적.등장 배경
'Natural Language Processing' 카테고리의 다른 글
Min-K%++ 논문 리뷰 (ICLR 2025) (1) | 2025.08.31 |
---|---|
[2025-2] 백승우 -Theory of Mind (0) | 2025.08.07 |
[2025-2] 백승우 - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs (1) | 2025.07.29 |
[2025-2] 박지원 - QLORA (0) | 2025.07.17 |
[2025-2] 박제우 - GRAPH ATTENTION NETWORKS (0) | 2025.07.13 |