본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Natural Language Processing

[2025-2] 김경훈 - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation (Arxiv 2025)

by Theron 2025. 9. 13.

 

 

논문 : https://arxiv.org/pdf/2505.24263

 

 

▲2025년 5월 30일에 공개된 arXiv에 게재된 논문임.(학회 X)

 

MBZUAI 설명:

더보기
MBZUAI는 아랍에미리트 아부다비에 위치한 세계 최초의 석사 및 박사 과정 중심의 인공지능 전문 연구 대학입니다. 2019년에 설립되어, 2025년부터 학부 과정도 개시하였습니다

📍 위치

  • 도시: 아부다비 (Abu Dhabi)
  • 지역: 마스다르 시티 (Masdar City)
  • 국가: 아랍에미리트 (United Arab Emirates)

 

 

 

 

1. Abstract (초록)

이 연구는 LLM(대형 언어 모델)의 평가에서 데이터 누출 문제를 다룹니다.
기존의 누출 감지 방법을 비교하고, 누출을 시뮬레이션하여 이를 탐지하는 새로운 방법을 제시합니다.
특히, semi-half, permutation, n-gram 방식이 검토되었습니다.
각 방법의 성능을 실험적으로 평가한 결과, n-gram 방식이 가장 높은 성능을 보였습니다.
이 연구는 모델 평가에서 데이터 누출을 제거하고, 더 신뢰할 수 있는 성능 결과를 얻기 위한 중요한 기초 자료를 제공합니다.

 

2. Introduction (서론)

대형 언어 모델의 성능이 급격히 향상되면서, 벤치마크 테스트의 공정성이 논란이 되고 있습니다.
훈련 데이터와 평가 데이터가 겹치면, 모델이 시험 문제를 외운 것처럼 결과가 왜곡될 수 있습니다.
이 연구는 누출 탐지 방법의 유효성을 평가하고, 모델이 제대로 된 평가를 받을 수 있도록 하려는 목적을 가지고 있습니다.
누출된 데이터를 식별하는 기존의 방법은 명확하지 않거나 제한적이었으므로, 새로운 검출 방법이 필요합니다.
이 연구에서는 MMLUHellaSwag 두 가지 벤치마크를 사용하여 실험을 진행합니다.

 

3. Related Work (관련 연구)

LLM 평가에 대한 연구가 증가하면서, 데이터 누출을 감지하려는 다양한 방법들이 제시되었습니다.
기존 연구들은 로그 확률(logit-based) 또는 생성 기반 방법(generation-based)을 사용하여 누출을 감지하려 했습니다.
그러나 이들은 인스턴스 수준의 감지에 한계가 있었고, 실험적 조건에서 평가된 적이 없었습니다.
본 연구는 이러한 기존 방법들을 체계적으로 비교하고, 누출을 탐지할 수 있는 새로운 방법들을 평가합니다.
특히 n-gram 방법은 모델이 평가 데이터를 외운 것을 식별하는 데 효과적이라는 결과를 보였습니다.

 

4. Methods (방법론)

이 연구는 훈련 데이터 누출 시뮬레이션을 통해 세 가지 누출 감지 방법을 평가합니다.

  1. Semi-half: 질문의 절반을 잘라내고, 여전히 정확한 답을 맞출 수 있는지 확인합니다.
  2. Permutation: 보기 순서를 바꿔본 후, 원래 순서가 가장 높은 확률을 보이면 누출이 있다고 판단합니다.
  3. N-gram: 모델이 선택지를 완성할 때, 그 문장이 훈련 데이터와 얼마나 유사한지 평가합니다.
    각 방법은 F1-score로 성능을 측정하고, 계산 효율성을 고려하여 개선이 이루어졌습니다.

 

5. Results (결과)

세 가지 방법을 실험한 결과, n-gram 방법이 가장 높은 F1-score를 기록했습니다.
Permutation-Q 방식은 계산 비용을 줄이면서도 좋은 성능을 보였고, Semi-half는 비교적 낮은 정확도를 보였습니다.
모델에 따라 성능 차이가 있었지만, n-gram이 가장 신뢰할 수 있는 방법으로 나타났습니다.
데이터 누출을 제거한 후, 모델 성능이 전반적으로 감소한 것을 확인할 수 있었습니다.
이러한 결과는 모델의 실제 성능을 더 잘 반영하는 평가가 필요함을 보여줍니다.

 

6. Conclusion (결론)

이 연구는 LLM 평가에서 데이터 누출을 탐지하기 위한 세 가지 방법을 비교하고, n-gram 방법이 가장 효과적임을 보여주었습니다.
누출 검사를 통해 모델 평가가 더 신뢰할 수 있고 공정하게 이루어져야 함을 강조했습니다.
특히, permutation-Q와 같은 효율적인 방법이 계산 자원 절감에 기여할 수 있다는 가능성을 열었습니다.
향후 LLM 연구에서 누출 감지는 표준 과정으로 자리잡을 필요가 있습니다.
이 연구는 누출 검출을 통한 모델의 진짜 성능 평가에 중요한 기준을 제시했습니다.

 

 

 


 

 

 

⬜⬜⬛⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬛⬜⬜
⬜⬛⬜⬛⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬛⬜⬛⬜
⬛⬜🟧⬜⬛⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬛⬜🟧⬜⬛
⬛⬜🟧🟧⬜⬛⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬜⬛⬜🟧🟧⬜⬛
⬛⬜🟧🟧🟧⬜⬛⬜⬛⬛⬛⬛⬛⬛⬛⬜⬛⬜🟧🟧🟧⬜⬛
⬛⬜🟧🟧🟧🟧⬛⬛🟧🟧🟧🟧🟧🟧🟧⬛⬛🟧🟧🟧🟧⬜⬛
⬜⬛⬜🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧⬜⬛⬜
⬜⬜⬛⬜🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧⬜⬛⬜⬜
⬜⬛⬜⬜🟧🟧🟧⬜⬜🟧🟧🟧🟧🟧⬜⬜🟧🟧🟧⬜⬜⬛⬜
⬜⬜⬛⬛🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧🟧⬛⬛⬜⬜
⬜⬜⬜⬛🟧🟧⬛⬛⬛🟧🟧⬜🟧🟧⬛⬛⬛🟧🟧⬛⬜⬜⬜
⬜⬜⬜⬛🟧🟧⬜⬛⬛🟧⬜⬜⬜🟧⬛⬛⬜🟧🟧⬛⬜⬜⬜
⬜⬜⬛🟧🟧⬜⬜⬛⬛⬜⬛⬛⬛⬜⬛⬛⬜⬜🟧🟧⬛⬜⬜
⬜⬜⬛🟧🟧⬜⬜🟧⬜⬜⬜⬛⬜⬜⬜🟧⬜⬜🟧🟧⬛⬜⬜
⬜⬜⬛🟧⬜⬜⬜🟧⬜⬜⬜⬜⬜⬜⬜🟧⬜⬜⬜🟧⬛⬜⬜
⬜⬜⬛🟧🟧🟧⬜🟧⬜⬜⬜⬜⬜⬜⬜🟧⬜🟧🟧🟧⬛⬜⬜
⬜⬜⬜⬛🟧🟧⬜⬜🟧⬜⬜⬛⬜⬜🟧⬜⬜🟧🟧⬛⬜⬜⬜
⬜⬜⬜⬜⬛⬛⬛⬛⬛⬜⬜⬜⬜⬜⬛⬛⬛⬛⬛⬜⬜⬜⬜
⬜⬜⬜⬜⬜⬜⬜⬛⬛⬛⬛⬛⬛⬛⬛⬛⬜⬜⬜⬜⬜⬜⬜

 

LLM 벤치마크의 데이터 유출 문제를 탐지하는 방법들: 

들어가며: 왜 이 연구가 중요한가?

여러분이 시험을 보는데, 누군가는 이미 시험 문제를 미리 본 상태라고 상상해보세요. 공정한 평가가 될까요? 이것이 바로 현재 인공지능 언어 모델(LLM) 평가에서 일어나고 있는 문제입니다.

이 논문 "Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation"은 바로 이 문제를 다룹니다. ChatGPT나 Claude 같은 대규모 언어 모델들이 얼마나 똑똑한지 평가할 때, 우리는 MMLU나 HellaSwag 같은 표준화된 시험(벤치마크)을 사용합니다. 그런데 만약 이 모델들이 학습 과정에서 이미 이 시험 문제들을 봤다면 어떨까요?

 

 

2개 데이터셋 설명 [더보기 클릭]

 

더보기

 

1. MMLU (Massive Multitask Language Understanding)

개요:

  • MMLU는 대형 언어 모델(LLM)의 지식과 추론 능력을 평가하기 위해 설계된 다중 과제(multitask) 벤치마크입니다.
  • 다양한 학문적 분야 주제에 걸쳐 57개의 과목을 포함하고 있으며, 그 범위는 초등학교 수준에서부터 대학  전문 분야까지 다양합니다.

구성:

  • 과목: 예를 들어, 수학, 물리학, 역사, 컴퓨터 과학 등 다양한 분야에서 50~100문항으로 구성됩니다.
  • 각 문항은 객관식 형식으로 되어 있으며, 다양한 난이도(easy, medium, hard)의 문제들이 포함됩니다.
  • MMLU는 다양한 주제 응답 옵션을 바탕으로 모델의 종합적인 이해력을 평가합니다.

특징:

  • 교차 분야의 문제들로 다양한 지식과 사고 능력을 평가하기 때문에, 모델이 단순히 암기 패턴 인식을 넘어 종합적인 사고를 요구합니다.
  • 57개 과목의 범위는 매우 넓고, 언어 모델이 특정 주제에 대해 얼마나 깊이 이해하고 있는지를 테스트하는 데 유용합니다.

예시:

  • 수학 문제는 미적분, 대수학, 통계학 등 수학적 사고를 요구합니다.
  • 문학 문제는 작품의 주요 테마나 작가의 의도에 대한 질문을 다룹니다.

활용:

  • MMLU는 모델이 얼마나 일반적인 지식을 잘 보유하고 있는지를 평가하는 중요한 지표로 사용됩니다.
  • 다양한 언어 모델(예: GPT, T5, BERT 등)을 MMLU에서 평가하여 그 성능을 비교합니다.

2. HellaSwag

개요:

  • HellaSwag 상식적 추론을 평가하는 자연어 처리 벤치마크로, 텍스트 완성 문제를 포함하고 있습니다.
  • HellaSwag는 주어진 문장이나 문맥에 대해 모델이 가장 적합한 다음 문장을 예측하는 문제를 다룹니다.

구성:

  • 문제: 각 문항은 주어진 문장(문맥)을 기반으로, 모델이 가장 적절한 다음 문장을 예측하도록 요구합니다.
  • 객관식 선택지: 각 문제에는 4개의 선택지가 제공되며, 모델은 그 중 하나를 선택해야 합니다.
  • 문제의 성격: 주어진 문장이 상식적이어야 하며, 일상적인 지식 상식적 추론 능력을 바탕으로 선택지를 맞추는 것이 핵심입니다.

특징:

  • 상식적 추론을 요구하는 문제들이며, 창의적이고 문맥에 맞는 다음 문장을 선택해야 합니다.
  • 예를 들어, "어떤 사람이 문을 열고 들어왔습니다. 그가 무엇을 할까요?"와 같은 문장을 제시하고, 4개의 선택지 중 가장 자연스럽고 일관성 있는 답을 고르게 합니다.
  • 이 벤치마크는 모델이 문맥에 대한 이해뿐만 아니라, 일상적인 상식을 얼마나 잘 활용할 수 있는지 평가합니다.

예시:

  • 주어진 문장: "그는 도서관에 들어갔고 책을 집어들었다."
  • 선택지:
    1. 그는 도서관에서 공부를 시작했다.
    2. 그는 도서관을 떠났다.
    3. 그는 책을 던졌다.
    4. 그는 책을 읽지 않고 그냥 책을 놓았다.
  • 모델은 문맥에 맞는 자연스러운 답(예: "그는 도서관에서 공부를 시작했다.")을 선택해야 합니다.

활용:

  • HellaSwag 일상적인 상황에 대한 모델의 이해도를 평가하는 데 유용합니다.
  • 특히 창의적 추론이나 상식적 추론을 요구하는 문제들이기 때문에, 모델이 기계적으로 암기한 정보뿐만 아니라 문맥과 상황을 바탕으로 추론하는 능력도 평가됩니다.

결론:

  • MMLU는 모델의 지식의 폭 추론 능력을 평가하는 데 적합한 벤치마크입니다.
  • HellaSwag 상식적 추론 능력을 테스트하며, 일상적인 상황에서의 추론 능력을 중점적으로 평가합니다.

 


 

 

핵심 문제: 데이터 오염(Data Contamination)이란?

문제의 본질

데이터 오염은 마치 시험 문제가 유출된 것과 같습니다. LLM이 학습할 때 수조 개의 텍스트 데이터를 학습하는데, 이 과정에서 평가용 시험 문제들이 포함될 수 있습니다. 문제는 많은 AI 회사들이 자신들이 어떤 데이터로 모델을 학습시켰는지 공개하지 않는다는 점입니다.

예를 들어:

  • 어떤 모델이 "프랑스의 수도는?" 이라는 문제에 "파리"라고 답했다면
  • 이것이 진짜 추론 능력 때문인지, 아니면 단순히 이 문제를 통째로 외웠기 때문인지 알 수 없습니다

왜 이것이 심각한 문제인가?

  1. 공정성 문제: 모든 모델을 동일한 기준으로 비교할 수 없게 됩니다
  2. 실제 능력 파악 불가: 모델이 진짜로 똑똑한지, 단순히 답을 외운 것인지 구분이 어렵습니다
  3. 연구 발전 저해: 잘못된 평가는 AI 발전 방향을 왜곡시킬 수 있습니다

 

 

연구진의 접근 방법: 시뮬레이션을 통한 검증

이 연구의 혁신적인 점은 "통제된 실험"을 설계했다는 것입니다. 마치 과학 실험처럼, 연구진은 아래를 진행했습니다.

  1. 깨끗한 데이터 선별: 모델이 확실히 본 적 없는 문제들을 골라냅니다
  2. 인위적 오염: 이 중 절반(300개)을 모델에게 추가 학습시킵니다
  3. 탐지 방법 테스트: 여러 탐지 방법들이 오염된 문제를 찾아낼 수 있는지 확인합니다

이는 마치 의도적으로 바이러스를 주입한 후, 백신이 잘 작동하는지 테스트하는 것과 같습니다.

 

 

세 가지 주요 탐지 방법

 

[더보기 클릭]

더보기

Figure 1: 데이터 유출 시뮬레이션 및 탐지 방법 평가 워크플로우

이 그림은 전체 실험 과정을 한눈에 보여주는 플로우차트입니다.
구성 요소:
  • 회색 박스: 처리 단계 (데이터를 어떻게 가공하는지)
  • 파란색 박스: 데이터 타입이나 데이터셋
  • 보라색 박스: 모델의 상태
전체 과정 설명:
  1. MMLU/HellaSwag 데이터셋에서 시작
  2. Base LLM(처음부터 훈련을 시작한 모델)이 문제를 풀게 함 → 맞춘 것과 틀린 것 분류
  3. 틀린 답변 중에서 평균 perplexity(당황도)보다 높은 것만 선택
    • Perplexity가 높다 = 모델이 이 문제를 어려워한다 = 본 적 없을 가능성 높음
  4. 600개 샘플 추출: 300개는 학습용(leaked), 300개는 대조군(non-leaked)
  5. Continual Pretraining으로 300개를 추가 학습시킴
  6. 오염된 LLM 생성
  7. 탐지 방법들(semi-half, permutation, n-gram 등) 적용
  8. 성능 측정 (Precision, Recall, F1-score)

 

 

 

1. Semi-half 방법: 반쪽 질문 테스트

작동 원리:

  • 질문의 앞부분을 잘라내고 마지막 7단어만 남깁니다
  • 예: "중력의 반대 방향으로 자라는 식물의 예시는?" → "자라는 식물의 예시는?"
  • 이렇게 불완전한 질문에도 정답을 맞춘다면, 문제를 외웠을 가능성이 높습니다

장점:

  • 매우 간단하고 빠릅니다
  • 계산 비용이 적습니다

단점:

  • 정확도가 상대적으로 낮습니다 (F1 점수: 50-70%)
  • 많은 오염된 문제를 놓칠 수 있습니다

 

[더보기 클릭]

더보기

Figure 2: Semi-half 방법 예시

원래 질문: "A plant grows in the opposite direction of the gravitational force. This is an example of" (식물이 중력의 반대 방향으로 자란다. 이것은 무엇의 예시인가?)
Semi-half 질문: "gravitational force. This is an example of" (중력. 이것은 무엇의 예시인가?)
질문의 핵심 정보를 제거했는데도 정답을 맞춘다면, 문제를 통째로 외웠을 가능성이 높다는 원리입니다.

 

 

 

 

 

2. Permutation 방법: 선택지 순서 바꾸기

작동 원리:

  • 4지선다형 문제의 선택지 순서를 모든 경우의 수(24가지)로 바꿔봅니다
  • 원래 순서(A-B-C-D)일 때 모델이 가장 높은 확률을 보인다면, 문제를 외웠을 가능성이 있습니다

예시:

원래: A) 파리 B) 런던 C) 베를린 D) 로마
변형1: B) 런던 A) 파리 D) 로마 C) 베를린
변형2: C) 베를린 D) 로마 A) 파리 B) 런던
... (총 24가지)

장점:

  • 이론적으로 탄탄한 근거가 있습니다
  • 상당히 높은 정확도 (F1 점수: 78-96%)

단점:

  • 계산량이 매우 많습니다 (O(n!) 복잡도)
  • 선택지가 많을수록 기하급수적으로 시간이 증가합니다

 

2-1. Permutation-R: 개선된 순서 바꾸기

연구진은 모든 24가지를 다 확인할 필요가 없다는 것을 발견했습니다.

  • 비슷한 패턴을 보이는 순서들을 제거
  • 50%만 사용해도 성능이 거의 동일
  • 계산 시간을 절반으로 단축

 

2-2. Permutation-Q: 빠른 변형

혁신적 아이디어:

  • 4개 선택지를 모두 사용하지 않고, 2개씩만 조합
  • 복잡도를 O(n!)에서 O(n²)로 대폭 감소
  • 예: (A,B), (A,C), (A,D), (B,C), (B,D), (C,D) 6가지만 확인

성능:

  • 원래 방법과 비슷하거나 더 나은 성능
  • 계산 시간은 획기적으로 단축

 

 

3. N-gram 방법: 텍스트 생성 비교

작동 원리:

  1. 모델에게 선택지를 하나씩 생성하도록 요청
  2. 생성된 텍스트와 원래 선택지의 유사도 측정 (ROUGE-L 점수 사용)
  3. 유사도가 75% 이상이면 오염 가능성

예시:

질문: "프랑스의 수도는?"
모델이 생성: "파리입니다"
실제 선택지: "파리"
→ 유사도 높음 → 오염 가능성

장점:

  • 가장 높은 탐지율 (F1 점수: 81-100%)
  • HellaSwag에서는 거의 완벽한 성능
  • 비공개 모델에도 사용 가능

단점:

  • 텍스트 길이에 따라 시간 소요 변동
  • 반복적인 패턴의 선택지에서 오탐 가능성
N-gram 방법: 텍스트 생성 비교 시 결과

N-gram 방법은 모델이 각 선택지를 생성한 후, 그것을 원래 선택지와 비교하여 유사도를 측정하는 방식입니다. 이 실험에서 ROUGE-L 점수를 사용하여 유사도가 75% 이상인 경우를 오염 가능성이 있다고 판단하였습니다. N-gram 방법은 높은 F1-score를 유지하면서도 효율적으로 데이터를 감지했습니다. 특히 HellaSwag 데이터셋에서 99.83%의 정확도를 보였고, MMLU에서는 여전히 81% 이상의 F1-score를 기록했습니다 



이 결과들은 N-gram 방법이 데이터 오염을 탐지하는 데 매우 효과적이라는 것을 보여줍니다.

 

 

 

ROUGE-L 이란? [더보기 클릭]

더보기
ROUGE-L 점수는 자동 텍스트 요약  텍스트 생성 모델의 성능을 평가할 때 자주 사용되는 지표입니다. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 텍스트 요약 시스템의 품질을 평가하는 데 쓰이는 측정 기준으로, 여러 종류의 ROUGE 점수가 존재합니다. 그 중 ROUGE-L 긴급한 일치(Longest Common Subsequence, LCS) 기반으로 계산됩니다.

ROUGE-L 점수란?

ROUGE-L 두 텍스트 간의 가장 긴 공통 부분 수열(Longest Common Subsequence, LCS)을 사용하여 평가하는 지표입니다. 이 점수는 두 텍스트가 얼마나 유사한지를 측정하는 데 사용됩니다.
  • LCS (Longest Common Subsequence): 두 텍스트에서 순서가 바뀌지 않게 나열할 수 있는 가장 긴 공통 단어 또는 구의 집합을 의미합니다. 예를 들어, "I like dogs"와 "I like cats"라는 두 문장이 있을 때, 이들의 LCS는 "I like"입니다.

ROUGE-L 계산 방법

ROUGE-L 점수는 정밀도 재현율을 계산한 후, 이를 F1-score로 합산하는 방식입니다.
  1. 정밀도 (Precision): 생성된 요약에서 정답 문장에 포함된 LCS 비율을 측정합니다.
  2. 재현율 (Recall): 정답 문장에서 생성된 요약 문장에 포함된 LCS 비율을 측정합니다.
  3. F1-score: 정밀도와 재현율의 조화 평균을 구합니다.
공식은 다음과 같습니다:


여기서:

 

ROUGE-L의 장점과 특성

  • ROUGE-L 순서를 고려하여 텍스트의 구조적인 유사성을 평가합니다. 즉, 두 텍스트가 단어 순서를 바꾸지 않고 공통된 부분을 얼마나 많이 갖고 있는지 측정합니다.
  • ROUGE-L 단순히 단어의 일치만을 고려하는 다른 ROUGE 지표들(예: ROUGE-N)과 비교했을 때 문장의 구조적인 유사성도 반영하는 장점이 있습니다.
  • 이 점수는 특히 긴 텍스트 문장 일관성 논리적 흐름을 평가하는 데 유용합니다.

ROUGE-L을 활용하는 예시

예를 들어, 텍스트 요약에서 시스템이 생성한 요약과 정답(human reference summary) 간의 유사성을 비교할 때 사용됩니다.
  • 생성된 요약: "The quick brown fox jumps over the lazy dog."
  • 정답 요약: "A fast brown fox jumps over the lazy dog."
이 두 문장 사이의 LCS는 "The quick brown fox jumps over the lazy dog"로, 정확히 일치합니다.
따라서 ROUGE-L 점수는 1.0(최고 점수)을 받을 수 있습니다.

ROUGE-L과 다른 ROUGE 점수들과의 차이점

  • ROUGE-N (예: ROUGE-1, ROUGE-2): 단어 단위의 일치를 기반으로 평가합니다. 예를 들어, ROUGE-1은 단어 단위로 평가하고, ROUGE-2 두 단어의 연속적인 일치를 평가합니다.
  • ROUGE-L 단어 순서 구조적 일치를 고려하기 때문에 더 정교하고 문맥적인 유사성을 평가할 수 있습니다.

ROUGE-L의 활용 분야

  1. 자동 텍스트 요약: 요약의 품질을 평가할 때 가장 널리 사용됩니다. 특히 긴 문장의 요약에서 구조적인 일치가 중요한 경우 ROUGE-L 점수가 유용합니다.
  2. 기계 번역: 번역된 텍스트가 원문과 얼마나 유사한지 평가할 때도 ROUGE-L이 사용됩니다.
  3. 질의응답 시스템: 생성된 응답과 정답의 유사성을 평가하는 데 유용합니다.

결론

ROUGE-L 점수는 문장 내 단어 순서 구조적 유사성을 반영하는 중요한 평가 지표입니다. 이 점수는 특히 긴 문장이나 구조적인 흐름을 중요한 평가 요소로 간주하는 텍스트 요약이나 기계 번역에서 강력한 도구로 사용됩니다.

 

 

 

 

실험 결과: 충격적인 발견들

주요 발견 1: 광범위한 데이터 오염

연구진이 실제 LLM들을 검사한 결과는 아래에 있음.( n-gram 방법을 사용하여 각 모델이 벤치마크 데이터셋에서 훈련 중에 본 데이터를 얼마나 잘 기억하는지를 확인 )

 

MMLU 데이터셋 오염률:

  • Qwen2.5-7B: 39.1% (가장 심각)
  • LLaMA-3.1-8B: 37.9%
  • DeepSeek-7B: 35.3%
  • GPT-4o: 0.25% (매우 깨끗)
  • Gemini-2.0-Flash: 0.05% (가장 깨끗)

이는 일부 모델들이 평가 문제의 1/3 이상을 이미 학습 중에 봤을 가능성을 시사합니다

 

[더보기 클릭]

더보기

Figure 6

연구 방법:

  1. 데이터 누출 시뮬레이션:
    • 연구팀은 MMLU HellaSwag 데이터셋에서 모델이 처음에 틀린 문제를 600개 선택하고, 이 중 300개는 훈련 데이터에 추가하여 데이터 누출을 시뮬레이션 했습니다.
    • 나머지 300개는 훈련에 포함하지 않았습니다.
  2. n-gram 방법:
    • 이 방법은 모델이 생성한 답을 원본 데이터와 비교하여 유사도를 측정합니다.
    • 모델이 데이터셋에서 본 적 있는 문제를 정답으로 맞추면, 이는 누출된 데이터로 간주됩니다. 만약 모델이 같은 문제를 여러 번 맞춘다면, 그 문제는 훈련 중에 이미 봤을 가능성이 있다는 것입니다.
  3. 결과:
    • 실험 결과, Gemini-2.0-Flash 모델은 누출 비율이 매우 낮았고, Deepseek-7B 모델은 35%에 달하는 높은 누출 비율을 보였습니다.
    • 이는 Gemini-2.0-Flash가 훈련 데이터에서 본 문제를 기억하는 빈도가 적다는 뜻이고, Deepseek-7B는 훈련 데이터의 영향을 더 많이 받았다는 의미입니다.
이 실험은 모델의 성능 평가가 훈련 데이터와 중복된 문제를 얼마나 잘 처리하는지를 구분하는 데 중요한 역할을 합니다.

 

 

 

 

 

 

 

 

[더보기 클릭]

더보기

Figure 3: N-gram 방법의 임계값 T에 따른 F1-score 변화

X축: Ratio Threshold T (0.00 ~ 1.00) Y축: F1 Score (0.2 ~ 1.0)
주요 발견:
  • T=0.25일 때 대부분 모델에서 최적 성능
  • Qwen2.5-7B + HellaSwag: T 증가 시 급격한 성능 하락
  • LLaMA-3.1-8B와 Gemma-7B + HellaSwag: T=0.25~0.75에서 100% 유지


Figure 4: Permutation 방법의 사용 비율(p)에 따른 성능

X축: Selected Permutation Option Percentage (0 ~ 100%) Y축: F1 Score (0.70 ~ 0.95)
핵심 발견:
  • 50% 사용과 100% 사용 간 성능 차이 미미
  • 계산 효율성을 위해 50% 사용 권장
  • 모든 모델에서 안정적인 패턴 보임




X축: 선택지 순서 비율(p)
여기서 p는 Permutation 방법에서 사용할 순서 설정의 비율을 의미합니다.
예를 들어, p = 1.0이면 모든 가능한 순서를 다 계산하는 것이고, p = 0.5이면 순서 설정의 절반만 계산합니다.

Y축: F1-score (모델 성능)
F1-score는 모델이 데이터 누출을 얼마나 정확하게 감지하는지 평가하는 지표입니다.











Figure 3: N-gram 방법의 임계값 T에 따른 F1-score 변화 n-gram 방법의 성능을 측정하기 위한 실험 결과를 보여줍니다. 이 실험에서는 임계값(T)을 변경하면서 모델의 성능(여기서는 F1-score)이 어떻게 변하는지를 관찰합니다.

N-gram 방법이란?

먼저 n-gram 방법을 간단히 설명하겠습니다.
n-gram 방법은 주어진 문장이나 선택지가 훈련 데이터와 얼마나 유사한지 측정하는 방법입니다. n-gram은 문장을 n개의 연속된 단어들로 분할하여 유사성을 판단합니다. 예를 들어 아래 bi-gram, tri-gram을 봅시다.

  • 2-gram: "The dog" → ["The", "dog"]
  • 3-gram: "The dog barks" → ["The", "dog", "barks"]
이 방법을 사용하여 모델이 선택지를 얼마나 정확히 복제하는지 측정합니다.



F1-score란?

F1-score는 정밀도(precision)와 재현율(recall)의 조화 평균입니다.
  • 정밀도: 모델이 맞다고 예측한 것 중 실제로 맞는 비율
  • 재현율: 실제로 맞는 것 중 모델이 맞다고 예측한 비율
F1-score는 이 두 값을 균형 있게 고려하여 모델의 성능을 평가합니다.

임계값(T) 이란?

임계값(T)은 n-gram 방법에서 "이 문장이 얼마나 유사해야 누출된 데이터로 판단할 것인가"의 기준을 설정하는 값입니다.
즉, 임계값은 모델이 데이터 누출을 판단할 때, 얼마나 유사한 문장이면 누출로 간주할지를 결정하는 기준입니다.

  • T 값이 높을수록: 유사한 정도가 매우 높아야 데이터가 누출된 것으로 판단됩니다. 즉, 더 강한 유사성이 필요합니다.
  • T 값이 낮을수록: 조금만 유사하면 누출로 간주하게 됩니다. 즉, 덜 강한 유사성도 누출로 판단됩니다.



Figure 3의 내용을 풀어 설명하면:

  • X축: T 값 (임계값)
    • T 값 0.25, 0.5, 0.75, 1.0과 같은 값들로 설정되며, 각 값에 대한 성능을 측정합니다.
  • Y축: F1-score (모델 성능)
    • 모델이 데이터 누출을 얼마나 잘 감지하는지를 나타내는 지표입니다.
실험에서는 T 값을 조절하면서 n-gram 방법의 성능을 측정한 것입니다.

그래프 해석:

  • T 값이 낮을수록(0.25, 0.5) F1-score가 높게 나타난다는 결과가 보입니다.
    → 즉, 더 작은 유사성을 누출로 간주했을 때, 모델이 더 많은 누출을 감지해서 F1-score가 좋아지는 현상이 나타납니다.
  • T 값이 높아질수록(0.75, 1.0) F1-score는 떨어지는 경향이 있습니다.
    → 즉, 더 강한 유사성을 요구할 때, 모델이 누출을 놓치는 경우가 많아지며, 성능이 떨어짐을 의미합니다.



결론:

T 값 n-gram 방법에서 누출을 얼마나 민감하게 감지할 것인지의 기준입니다. T 값이 너무 높으면 모델이 실제로 중요한 데이터 누출을 놓칠 수 있고, T 값이 너무 낮으면 불필요한 데이터까지 누출로 감지되어 false positive가 많아질 수 있습니다.
따라서 적절한 T 값을 설정하는 것이 중요합니다. 실험에서는 T=0.25 가장 적절한 임계값으로 보이며, 이는 모델이 최고 성능을 낸 경우입니다.

 

 

 

 

[더보기 클릭]

더보기

Table 1: 모든 탐지 방법의 성능 종합 비교

측정 지표:
  • Recall: 실제 오염 중 얼마나 찾았나
  • Precision: 오염이라고 한 것 중 실제 오염 비율
  • F1-Score: Recall과 Precision의 조화평균
최고 성능 방법:
  • MMLU: N-Gram (F1: 81.89~88.23%)
  • HellaSwag: N-Gram (F1: 96.01~100%)




Table 1 다양한 모델과 방법에 대한 데이터 누출 감지 성능 (F1-score)을 비교한 표입니다. 각 방법은 Semi-half (S), Permutation (P), Permutation-R (PR), Permutation-Q (PQ), N-Gram (N) 등을 포함하며, 이들 각각의 방법이 MMLU HellaSwag 데이터셋에 대해 어떻게 성능을 발휘하는지를 보여줍니다.

주요 내용:

  • 각 방법 F1-score라는 성능 지표를 기준으로 평가됩니다.
  • Base 모델과 Instruct 모델에 대해 평가가 진행되었으며, 모델에 따라 성능 차이가 나타납니다.
    • 예를 들어, Qwen-0.5B 모델은 S (Semi-half) 방법에서 F1-score가 55.68로 나타난 반면, P (Permutation) 방법에서는 82.78 성능이 크게 향상되었습니다.
  • Permutation-Q Qwen-0.5B에서 86.63의 높은 성능을 보였고, Gemma-7B에서 85.10의 F1-score를 기록하며, 전반적으로 뛰어난 성능을 보여주었습니다.

결과 해석:

  • S + N과 같은 복합 방법 Precision Recall 사이에서 균형을 맞추며 좋은 성능을 보였습니다.
  • Permutation-Q 복잡성을 줄이면서도 높은 성능을 유지한 방법으로, 다양한 모델에서 경쟁력 있는 결과를 얻었습니다.

 

 

 

 

 

주요 발견 2: 외웠다고 다 맞추는 건 아니다

흥미롭게도, 오염된 문제라고 해서 모델이 항상 정답을 맞추는 것은 아니었습니다:

  • DeepSeek-7B: 오염된 문제 정답률 39.06%
  • LLaMA-3.1-8B: 51.19%
  • Gemini-2.0-Flash: 95.65%

이는 단순 암기와 실제 이해가 다르다는 것을 보여줍니다.

[더보기 클릭]

더보기

Table 2 자세히 설명

Table 2 데이터 누출이 감지된 MMLU 인스턴스에 대해 모델들의 정확도를 비교한 표입니다. 이 표는 각 모델 누출된 데이터에서 얼마나 정확한 답을 제공하는지를 평가합니다.

주요 내용:

  • 각 모델의 정확도 n-gram 방법을 사용하여 누출된 문제에서 얼마나 정확한 답을 제공했는지를 나타냅니다.
    • 예를 들어, Gemini-2.0-Flash는 누출된 문제에서 95.65%의 정확도를 보였고, Deepseek-7B는 39.06%로 성능이 낮았습니다.
    • GPT-4o 87.09%, LLaMA-3.1-8B는 51.19%의 정확도를 기록했습니다.
  • 이 표는 누출된 데이터에 대한 모델들의 성능 차이를 명확히 보여주며, 모델이 누출된 문제를 잘 처리할수록 정확도가 높아진다는 점을 강조합니다.

결과 해석:

  • Gemini-2.0-Flash 누출된 데이터에서 매우 높은 정확도를 보였으며, Deepseek-7B 상당히 낮은 정확도를 기록하여 누출 데이터를 잘 처리하지 못한 모델으로 나타났습니다.
  • 이 표는 모델들의 메모리화 정도 정확도에 큰 영향을 미친다는 사실을 확인시켜 줍니다.

 

결론:

  • Table 1 데이터 누출 감지 방법의 성능을 모델 별로 비교한 표로, 다양한 방법이 성능 효율성에서 다른 결과를 보임을 보여줍니다.
  • Table 2 누출된 데이터에 대한 모델들의 정확도를 비교한 표로, 각 모델이 누출 문제를 얼마나 잘 해결하는지를 평가합니다. Gemini-2.0-Flash가 가장 높은 성능을 보였고, Deepseek-7B는 낮은 성능을 보였습니다.

 

 

 

 

 

주요 발견 3: 특정 과목에서 더 심각

가장 오염이 심한 과목들:

  • 해부학(Anatomy): 성능 하락 최대 35.4%
  • 도덕 시나리오(Moral Scenarios): 가장 많은 오염 사례
  • 형식 논리(Formal Logic): 오염 제거 후 큰 성능 하락

STEM 분야에서 특히 Qwen 모델의 오염이 심각했습니다 (8% 성능 하락).

 

실무적 시사점과 권고사항

연구자들을 위한 제언

  1. 오염 검사 의무화: 벤치마크 결과 발표 전 반드시 오염 검사 실시
  2. N-gram 방법 우선 사용: 가장 효과적이면서도 실용적
  3. 복수 방법 병행: 중요한 평가에서는 2-3가지 방법 동시 사용

 

AI 개발자들을 위한 제언

  1. 학습 데이터 투명성: 사용한 데이터셋 목록 공개
  2. 평가 데이터 격리: 학습 데이터에서 벤치마크 제외
  3. 정기적 오염 검사: 모델 출시 전 자체 검증

 

일반 사용자들이 알아야 할 점

  1. 벤치마크 점수 맹신 금물: 높은 점수가 항상 좋은 모델을 의미하지 않습니다
  2. 실제 사용 경험 중요: 벤치마크보다 실제 작업에서의 성능이 더 중요할 수 있습니다
  3. 다양한 평가 지표 참고: 한 가지 벤치마크만 보지 말고 여러 지표를 종합적으로 고려하세요

 

 

연구의 한계와 미래 방향

현재 방법들의 한계

  1. 반복 패턴 문제: "True/False" 같은 단순 패턴에서 오탐 발생 (False Positive)
  2. 계산 비용: 대규모 데이터셋에 적용 시 여전히 시간 소요
  3. 새로운 회피 기법: AI 회사들이 탐지를 피하는 방법 개발 가능성

 

향후 연구 방향

  1. 더 정교한 탐지 방법 개발: 머신러닝 기반 자동 탐지
  2. 실시간 모니터링 시스템: 지속적인 오염 감시 체계 구축
  3. 새로운 평가 패러다임: 오염이 불가능한 동적 평가 방식 개발

 

 

마무리: 이 연구가 우리에게 주는 교훈

이 연구는 단순히 기술적 문제를 넘어 AI 발전의 방향성에 대한 중요한 질문을 던집니다:

  1. 투명성의 중요성: AI 개발에서 투명성이 얼마나 중요한지 보여줍니다
  2. 평가의 공정성: 공정한 평가 없이는 진정한 발전이 어렵습니다
  3. 협력의 필요성: 학계와 산업계가 함께 해결책을 찾아야 합니다