본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Natural Language Processing

[2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities

by 카만 2025. 8. 31.

등장 배경

  • 기존 연구들은 LLM이 본 데이터를 얼마나 다시 재현(reproducibility)하는지, 그리고 그걸 얼마나 잘 탐지(detectability)할 수 있는지에 초점을 맞춤.
  • But, 누수의 근원인 사전학습 데이터(pretraining data) 자체에 어떤 인스턴스가 포함돼 있는지, 그리고 그게 성능에 어떻게 작용하는지는 충분히 연구되지 않음.

논문 목적

  • 사전 학습 데이터에 포함된 누수 인스턴스가 모델의 재현율과 탐지 성능에 어떤 영향을 미치는지 알아냄
  • 이를 위해 누수율(leakage rate), 재현율(reproduction rate), 탐지율(detection rate)이라는 세 지표를 정의하고, LLM 실험을 통해 상관관계를 규명함

문제 상황

  • 누출률 낮음 → 탐지율 하락
    • 누출률과 재현율은 별개의 지표인데, 사전 학습 데이터에 누출 인스턴스가 적으면, 모델이 누출률을 잘 못 잡아냄
    • 기존 탐지 방법들의 (NLL, Min-K, Zlib, SaMIA) 한계
    → Few-shot Detection 제안!

기존 탐지 방법들

  • NLL (Negative log-likelihood)
    • 특정 정답 텍스트가 나올 확률이 높을수록 작아짐
    • 모델이 해당 텍스트를 자신있게 예측 → NLL 감소
  • Min-K
    • 가장 예측이 어려운 k% 토큰으로 누수 여부를 판단함
    • 판단 과정
      • 주어진 문장을 LLM이 생성할 때 토큰마다 생성 확률을 계산
      • 그 중에서 가장 낮은 k% 토큰만 추려냄
      • 추려낸 토큰들의 평균 값을 계산
      • 그 값이 임계점을 넘으면 누수 의심

→ 단순히 토큰 값만 활용해서 공통 단어가 많으면 오탐 가능성 높음

→ DC-PDD가 등장한 이유 (Pretraining Data Detection for LLM: A Divergence-based-Calibration Method)

  • Zlib
    • 텍스트의 압축률을 이용해 누수 가능성을 파악함
    • LLM이 사전 학습 중 어떤 문장을 통으로 학습 → 문장을 다시 생성할 때 반복 패턴이 많거나, 이미 자주 등장한 것들의 재조합일 확률이 높음 → 압축률 높음
    • 단점
      • 텍스트가 변형 없이 기억된 경우에 적합
      • 일반적인 문자열 압축 알고리즘이기 때문에 자연어 의미 기반 유사성 고려 못함
  • SaMIA
    • 모델에서 샘플링한 출력과 대상 텍스트를 비교해 n-gram 일치율로 탐지

핵심 키워드

  • Few-shot Detection
    • LLM에게 몇 개의 예시를 보여주고, 예시 기반 답을 유도하는 방식
    • 누수, 비누수 사례들을 모델에 보여주고 구분하도록 학습시키자!

실험 설계

  • 지표
    • Leakage Rate
      • 사전 학습 데이터에 누출 인스턴스가 포함된 비율
    • Reproduction Rate
      • 사전 학습 데이터에 들어 있던 누출 인스턴스 중 LLM이 실제로 재현(출력)하는 비율
    • Detection Rate
      • 누출/비누출 인스턴스를 올바르게 구분하는 성능
  • 대상 LLM의 사전 학습 데이터셋
    • 본 논문에서는 각각의 LLM에 포함된 사전 학습 데이터를 바탕으로 PI, CT, BM 데이터의 누출율을 측정함
  • 데이터 유형
    • 개인정보 (PI)
    • 저작권 텍스트 (CT)
    • 벤치마크 (BM)


누출 인스턴스 구성 방법

  1. 패턴이 있는 개인정보
    • IP address, IBAN code, US SSN, email addresses, phone numbers, card numbers
    • regular expressions를 이용해 publicly available pretraining corpora에서 추출함
      • 형식이 일정한 개인정보를 효율적으로 찾을 수 있음
  2. 패턴이 없는 개인정보 (이름)
    • NER (Named Entity Recognition) 사용해 publicly available pretraining corpora에서 추출함
      • 문장에서 사람, 장소, 조직 등 특정 실체를 식별하는 NLP 기법
      • ex) Steve Jobs founded Apple in California.단어 entity 유형
        Steve Jobs Person
        Apple organization
        California Location
  3. CT
    • Google Books, Google News, Google Scholar에서 크롤링 (Selenium 활용)
    • CT에 대한 데이터 누출은 약 50 단어 이상 매칭이 기준
    • → 그 이하 텍스트는 배제함
  4. BM
  • Hugging Face 데이터베이스에서 다운로드 상위 128개의 dev/test dataset을 수집
  • 20만 인스턴스 데이터 스토어 구성

Leakage Rate 계산 방식

$$ Leakage~Rate= \frac{total~size~of~leaked~instances}{total~data~size} $$

  • dataset 마다 instance 크기가 다르기 때문에 token 단위 data size 비율로 계산함


Reproduction Rate

  1. 재현율 측정을 위한 데이터 구성
    • Leaked text
      • 누출 인스턴스 PI,CT,BM 에서 각각 10만 개씩 샘플링 후 평가용으로 사용
      • GPT-4에 “이 leaked text를 뽑아내게 하는 프롬프트를 만들어 달라”는 프롬프트를 few-shot(예시 8개)와 함께 주어 프롬프트를 자동 생성.
      • 프롬프트 민감도를 줄이기 위해 인스턴스당 4개 프롬프트를 만들고 정확도(모델이 그 텍스트를 출력)를 평균함. = 누출 텍스트 출력 평균값
      • 최종 데이터 크기: PI 9,011 / CT 7,702 / BM 8,155. = 누출 데이터셋
    • Denied text
      • “해당 내용에 답변할 수 없습니다” 류의 거부 응답 8개를 따로 준비함 (기존 거부 응답 데이터셋에서 샘플)
      • 8개 거부 응답 출력 평균값을 계산함 = 거부 응답 평균값
  2. Reproduction
    누출 텍스트 평균 > 거부 응답 평균 → 재현됨으로 판정

  3. Reproduction Rate 계산
    $$ Reproduction~Rate= \frac{total~size~of~reproduction~instances}{total~size~of~instances} $$


Detection Rate

Non-leaked 데이터셋 구성

  • 누출 데이터셋과 1:1 대응되게 생성함
  • PI: 숫자 치환(random digits), 이름/주소 재작성(GPT-4)
  • CT/BM: GPT-4로 paraphrase → PI 재작성 규칙 적용
  • exact match로 생성물이 사전 학습/tuning data에 정확 일치가 없는지 확인

계산 방법

$$ Detection~Rate= \frac{total~size~of~correctly~detected~instances}{total~size~of~instances} $$


Few-shot Detection 도입

  1. leakage and non-leakage 인스턴스를 각각 8개씩, 총 16개를 예시로 prompt에 포함해 LLM에 탐지 과제를 명시적으로 정의함


2. 인스턴스에 대해 LLM이 yes or no 중 더 확률 높은 쪽을 출력 → 탐지 결과로 사용


실험

환경 설정

eight NVIDIA A 100 GPUs

hugginface implements

25 models as LLM (T5, LLaMa, Pythia, MPT, Falcon, OLMo…)

models list

Baselines of Leakage Detection

본 논문에서는 기존 탐지 기법 (LOSS, PPL/zlib, Min-K, SaMia) 에서 제안된 하이퍼파라미터를 그대로 사용함

실험 결과

  • PI: 탐지율이 가장 높음 - 누출률이 높아서 모델이 더 쉽게 구분함
  • CT와 BM은 누출률이 낮아 탐지율도 낮음
  • 모델 크기가 커질수록 탐지 성능 증가
  • 인스트럭션 튜닝 여부는 성능에 큰 영향 없음

비교 결과

  • Few-shot Detection이 모든 탐지 기법 중에서 가장 높은 성능을 기록함
  • 특히 PI/CT에서 안정적 우위를 보임
  • 다른 기법들은 누출률이 낮을 때 급격히 성능이 떨어짐

요약

  • 기존 방법: LOSS, PPL/zlib, Min-K%, SaMIA → 확률·압축·샘플링 기반.
  • 한계: 공통 단어/낮은 누출률 상황에서 탐지 성능 급락.
  • 새 제안: Few-shot Detection → 누출/비누출 예시 제공, “yes/no” 분류 태스크로 변환.
  • 결과: Few-shot Detection이 누출률·데이터 유형·모델 크기와 상관없이 가장 안정적.등장 배경