INTRODUCTION

대규모 언어모델(LLM)의 사전학습 코퍼스는 방대하고 대부분 비공개입니다. 이 상황에서 가장 민감하고도 실무적으로 까다로운 과제는 “지금 모델이 보고 있는 입력이 과거 사전학습 때 실제로 봤던 것인가?”를 가리는 일, 즉 사전학습 데이터 탐지입니다. 여기에 실패하면 저작권 분쟁(저작물의 무단 학습·출력), 개인정보 노출, 그리고 벤치마크 누수(평가 데이터 재학습) 같은 굵직한 리스크가 그대로 현실이 됩니다.

문제는, 기존 멤버십 추론(MIA)을 그대로 가져다 쓰기 어렵다는 데 있습니다. 대규모 사전학습은 보통 (a) 아주 적은 에폭으로, (b) 거대한 이질 코퍼스를, (c) 비공개 분포에서 수행합니다. 따라서 Loss 같은 단순 지표만으로는 훈련/비훈련을 깔끔히 가르기 힘듭니다. 또한 전통적 MIA가 즐겨 쓰던 shadow 모델(같은 분포로 재학습한 모델)의 가정도 사실상 성립하지 않습니다.

MIN-K%++는 이 난제를 이론에서 출발해, 구현과 운영까지 매끄럽게 이어지는 설계로 풀어냅니다. 핵심 관찰은 다음과 같습니다.

최대우도(MLE)로 학습된 확률모형에서는, 훈련 샘플이 입력 각 차원 방향으로 국소 극대(local maximum)가 되기 쉽습니다.
이를 LLM의 다음-토큰 분포로 옮기면, 훈련에서 본 토큰일수록 그 분포의 정점(모드)에 가깝다는 가설이 자연스럽습니다.
즉 사전학습 데이터 탐지를 모드 식별 문제로 전환하자는 제안입니다.

구현은 실용적입니다. 각 위치에서 정답 토큰의 로그확률을, 그 위치 분포의 평균(mu)과 표준편차(sigma)로 표준화(z-score)하여 모드성을 직접 점수화합니다. 그리고 문장 점수는 가장 취약한 토큰들(하위 k%)만 골라 평균합니다. 이 모든 계산은 타깃 LLM의 로짓만 있으면 되고, 한 번의 추론으로 끝납니다. 참조 모델이 필요 없고, 추가 추론 비용도 사실상 없습니다.

결과는 명확합니다. WikiMIA에서 기존 SOTA(Min-K%) 대비 평균 +6.2~+10.5 AUROC를 달성했고, 더 까다로운 MIMIR에서도 reference-free 방법 중 최고 성능이거나 참조 모델 기반 방법(Ref)과 동급 수준을 보여줍니다. 짧은 입력 길이에서도 성능이 잘 흔들리지 않는 점은 실서비스 트래픽(짧은 프롬프트·검색쿼리 등)에 특히 유리합니다.

RELATED WORK

왜 사전학습 멤버십이 더 어려운가

비공개 분포: shadow 모델을 같은 분포로 학습시키는 것이 비현실적입니다.
저에폭·초대규모: 과적합 신호가 약해 손실/퍼플렉시티 같은 절대 지표만으로는 구분력이 떨어집니다.
텍스트 난이도·희귀성: 특정 문장은 원래 어려워서, 훈련 데이터임에도 절대 확률이 낮게 나올 수 있습니다.

대표 접근과 한계

Loss/Perplexity 계열: 간단하지만 희귀/난해 사례에서 오판이 잦습니다.
Reference 기반(작은 LLM, zlib entropy, lowercasing 등으로 보정): 강력하지만 추가 모델과 여러 번의 추론이 필요합니다.
Neighbor 기반(이웃 문장 생성 후 평균 손실로 보정): 개념은 좋지만 계산량이 크고 느립니다.
Min-K%(기존 SOTA): 위치별 절대(로그)확률을 보고 하위 k% 평균으로 문장 점수를 냅니다. 간결하지만 입력별 분포의 폭·꼬리가 다르면 절대값만으론 모드성 판단이 흔들립니다.

MIN-K%++의 자리매김

이론 근거(국소 극대)에서 출발해, 분포 내부 기준(mu/sigma)으로 정답 토큰의 로그확률을 표준화합니다.
참조 모델 없이도 강력하며, 계산이 매우 가볍습니다.
입력 길이와 모델 아키텍처가 달라도 일관된 이득을 보이는 점이 실무에 매력적입니다.

BACKGROUND

문제 세팅(Grey Box)

목표: 입력 x가 타깃 LLM의 사전학습 코퍼스 D의 멤버인지 여부를 점수 s(x)로 구분.
접근 권한: 로짓, 토큰 확률, 손실만 사용(가중치·그래디언트 접근 불가).
평가: 임계에 독립적인 AUROC 중심, 운영 임계 설정을 위한 TPR@낮은 FPR 보조.

Auto Regressive LLM 관점

각 위치 t에서 모델은 어휘 전체에 대한 조건부분포(다음-토큰 확률)를 냅니다.
한 위치에서 정답 토큰의 로그확률뿐 아니라, 분포 전체의 모양(평균/산포)을 로짓으로부터 바로 계산할 수 있습니다.
즉 절대값 대신 분포 내부에서 상대적으로 얼마나 높은가를 따질 수 있습니다.

국소 극대 통찰을 직관으로

MLE는 데이터 지점 부근에서 기울기를 줄이고(평평하게), 곡률은 오목하게 만드는 경향이 있어, 각 차원 방향으로 국소 최대가 되곤 합니다.
연속 도메인(Diffusion)에서는 학습 이미지의 픽셀을 미세하게 바꾸면 원본 픽셀 부근에서 우도(ELBO)가 최대가 되는 오목한 패턴이 관찰됩니다.
이를 LLM의 이산 다음-토큰 분포에 이식하면, 훈련에서 본 토큰일수록 그 위치 분포의 정점(모드)에 더 가깝다는 가설이 자연스럽습니다.

AUROC과 TPR@낮은 FPR을 함께 보는 이유

AUROC은 임계와 무관하게 순위 품질을 측정합니다(양·음성 임의 한 쌍에서 양성 점수가 더 클 확률). 비교·연구에 적합합니다.
TPR@낮은 FPR은 실제 운영 임계에서 거짓 경보를 제한했을 때의 탐지력을 보여 줍니다. 법무·신뢰·UX 요건과 직결됩니다.

MIN-K%++

토큰의 로그확률을 그 위치 분포의 평균과 표준편차로 표준화(z-score)하고, 문장에서는 하위 k%만 평균합니다. 즉 모드성을 직접 계량하고, 문장에서는 가장 취약한 구간에 초점을 맞춥니다.

로짓으로부터 log softmax를 계산해 어휘별 로그확률 logp[v]를 얻습니다.
이를 지수화하면 확률 p[v]입니다.
mu: 그 위치에서의 평균 로그확률을 확률로 가중합해 구합니다.
sigma: (로그확률 − mu)의 제곱을 확률로 가중합한 뒤 제곱근을 취해 표준편차를 구합니다.
token_score: 정답 토큰의 로그확률에서 mu를 빼고 sigma로 나눈 값(표준화 점수)입니다.

문장 점수는 모든 token_score 중 가장 낮은 값들(하위 k%)만 골라 평균합니다. 이렇게 하면 문장 전체가 대체로 익숙하더라도 일부 구간이 매우 약하면 확실히 잡아낼 수 있습니다.

절대(로그)확률만 보면 분포의 폭·꼬리에 따라 해석이 달라집니다. 어떤 입력은 전반적으로 확률이 낮아도 정답 토큰이 그 위치 분포의 정점일 수 있습니다. MIN-K%++는 그 위치 내부에서 상대적으로 얼마나 높은가를 직접 측정합니다.

두 입력의 다음-토큰 분포에서 정답 토큰의 확률이 우연히 둘 다 0.2라고 합시다.

입력 A: 분포가 정답 토큰에서 뾰족하게 정점입니다(정답이 최빈).
입력 B: 다른 토큰 하나가 훨씬 더 높은 봉우리를 이룹니다(정답이 비최빈).
Min-K%는 둘 다 0.2로 동점을 주지만, MIN-K%++는 A에 높은 z-score, B에 낮은 z-score를 줍니다. 바로 이 차이가 성능 격차로 이어집니다.

캘리브레이션 관점으로 다시 보기

mu는 그 위치 분포의 기대 로그확률로 기준선(offset)을 잡습니다.
sigma는 스케일(scale)을 정규화합니다. 입력·모델·길이에 따른 산포 차이를 줄여 비교 가능하게 만듭니다.
두 요소가 함께 들어갈 때 가장 큰 이득이 확인됩니다(아블레이션에서 상세).

계산 복잡도·안정성·가속

추가 추론 없음: 한 번의 전방향 추론 후 기초 연산만 수행합니다.
복잡도는 대략 O(T·V)(길이 T, 어휘 V). 실무에서는 혼합정밀과 배치 처리, 상위 확률 토큰에만 집중하는 top-k 근사, log-sum-exp 안정화, epsilon으로 분산 하한 보정 같은 표준 테크닉으로 충분히 빠르고 안정적으로 돌릴 수 있습니다.

def minkpp_score(logits_seq, target_ids, k_percent=10, eps=1e-12):
 
    scores = []
    for t, logits in enumerate(logits_seq):
        logp = logits - torch.logsumexp(logits, dim=-1)     # log_softmax
        p = torch.exp(logp)                                  # probs
        mu = (p * logp).sum()                                # 평균 로그확률
        diff = logp - mu
        var = (p * (diff * diff)).sum()                      # 가중 분산 (제곱 연산에 ** 미사용)
        sigma = torch.sqrt(torch.clamp(var, min=eps))        # 표준편차
        z = (logp[target_ids[t]] - mu) / sigma               # 표준화 점수
        scores.append(z.item())
    m = max(1, int(len(scores) * k_percent / 100.0))
    return sum(sorted(scores)[:m]) / m                       # 하위 k% 평균

EXPERIMENTS

벤치마크 개요

WikiMIA

데이터 구성: 위키 기반 이벤트 텍스트. 시계열 분리로 train/non-train을 구분합니다.
설정 2가지
1. 원문(verbatim): 훈련 문장이 그대로 들어오면 탐지해야 합니다.
2. 패러프(paraphrase): 훈련 문장을 자연어로 바꿔 표현했을 때도 탐지력이 남는지 봅니다.
길이별 세분화: 32/64/128 토큰. 짧은 입력은 실제 트래픽과 유사하고 더 어렵습니다.

MIMIR

분포 동일성: Pile 데이터의 train/test 분할로 멤버십을 구분합니다.
train과 test가 같은 코퍼스 분포에서 왔기 때문에, WikiMIA보다 더 까다롭고 현실적입니다(시간 차·도메인 차가 거의 없음).

모델군

Transformer: LLaMA(13/30/65B), GPT-NeoX(20B), OPT(66B), Pythia(160M~12B)
SSM: Mamba(1.4/2.8B)
총 5 패밀리, 10개 모델로 광범위하게 검증했습니다.

지표

AUROC: 임계 무관 순위 품질.
TPR@낮은 FPR: 운영 임계에서의 탐지력. (거짓 경보를 낮게 유지해야 하는 법무·신뢰 맥락에 중요)

결과

WikiMIA

기존 Min-K% 대비 평균 +6.2~+10.5 AUROC.
짧은 입력에서도 성능 하락이 작아 일관성이 돋보입니다.
Transformer뿐 아니라 Mamba(SSM)에서도 일관된 이득을 보였습니다.

MIMIR

reference-free 방법 중 SOTA이거나, 참조 모델 기반 Ref와 동급에 근접한 성능.
특히 모델 규모가 커질수록 기존 Min-K% 대비 상대 이득이 점진 확대되는 경향이 관찰됩니다.

Online Detection (생성 중 감시 시나리오)

입력을 비훈련 텍스트 + 훈련 텍스트로 이어붙인 뒤, 길이 32의 슬라이딩 윈도로 각 구간을 판별합니다.
여러 번 추론이 필요한 Ref/Lowercase/Neighbor는 온라인에 부적합하므로 제외.
MIN-K%++가 가장 안정적으로 훈련 구간을 포착했습니다. 이는 실시간 차단 같은 운영 시나리오에 직접적 함의를 가집니다.

Ablation Study

k(하위 비율) 민감도

LLaMA-13B·WikiMIA에서 최고 84.8 vs 최저 82.1(편차 2.7%p)로, k 변화에 안정적입니다.
같은 조건의 Min-K%는 편차가 더 커서 민감도 면에서 불리합니다.

mu/sigma 기여 분해

raw 로그확률만 쓸 때보다
- mu 추가 시 약 +9.3%p,
- sigma 추가 시 약 +7.0%p,
- 둘 다 넣으면 약 +16.8%p 성능 향상.
기준선(평균) 보정과 스케일(표준편차) 보정의 결합이 핵심임이 재현적으로 확인됩니다.

한계·논의

희귀·난해 훈련 문장: 정답 토큰 자체가 낮은 확률을 받을 수 있어 여전히 어려운 케이스가 존재합니다(모든 방법 공통 난제).
강한 의미변환(단순 패러프를 넘어서는 구조 변형)은 모드성 힌트를 약화시킬 수 있습니다. 이럴 땐 가벼운 외부 신호(zlib 등)나 집계 함수 변형(위치 가중치, 상·하위 혼합)과의 하이브리드가 유효할 수 있습니다.
운영 임계 설계: AUROC가 높아도 서비스 요구(FPR 한도, 차단 정책, 사용자 경험)에 맞춘 임계·후처리(재샘플링, 거부, 온도/탑-p 동적 조정)가 중요합니다.

'Natural Language Processing' 카테고리의 다른 글

[2025-2] 박지원 - Benchmark Inflation: Revealing LLM PerformanceGaps Using Retro-Holdouts (0)	2025.09.04
[2025-2] 김민서 - Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities (1)	2025.08.31
[2025-2] 백승우 -Theory of Mind (0)	2025.08.07
[2025-2] 백승우 - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs (1)	2025.07.29
[2025-2] 박지원 - QLORA (0)	2025.07.17

[2025-2] Min-K%++

INTRODUCTION

RELATED WORK

BACKGROUND

MIN-K%++

EXPERIMENTS

'Natural Language Processing' 카테고리의 다른 글

티스토리툴바

[2025-2] Min-K%++

INTRODUCTION

RELATED WORK

BACKGROUND

MIN-K%++

EXPERIMENTS

'Natural Language Processing' 카테고리의 다른 글

관련글

티스토리툴바