본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2025-1] 박제우 - A Unified Approach to Interpreting Model Predictions

by jw2463 2025. 2. 8.

 

 
A Unified Approach to Interpreting Model Predictions

Understanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, cre...

arxiv.org

Lundberg, Scott M., and Su-In Lee. A Unified Approach to Interpreting Model Predictions. 2017. arXiv preprint

 

본 논문은 블랙박스 모델의 한계를 극복하기 위한 해석 방법을 제시한다. 기존이 모델은 추론 과정이 직관적일 경우 모델이 단순하고 정확도가 낮은 반면 추론 과정을 설명하기 어려울 경우에는 정확도가 올라가는 Trade off 문제가 있었다.

 

이러한 문제를 해결하기 위해 기존에도 여러 방법론이 존재했다. LIME, DeepLIFT, Shapley Sampling Values 등의 해석 모델이 존재했으나 각각의 한계점이 존재했다. 따라서 이러한 한계를 극복하고 설명 모델의 필수 속성(Local Accuracy, Missingness, Consistency)를 만족하는 유일한 모델로서 SHAP 계열 모델이 가장 적합한 모델임을 보여준다.

 

가산적 특성 기여 방법

 

AI의 설명 모델의 기본 원리는 가산적 특성 기여 방법(Additive Feature Attribution Methods)이다. 앞서 언급한 LIME, DeepLIFT 등 기존의 설명 모델은 모두 이 원리를 따른다.

 

f를 기존 모델(XGBoost, Random Forest, Ensemble 등), g를 해석 모델이라고 할 때, g의 목표는 f에 가장 근사한 값을 도출하는 것이다. 여기서 해석 모델은 f의 입력값 x를 단순화한 x'를 입력 데이터로 받는다. x'는 함수 h를 통해 x로 복원될 수 있다. 요약하자면

 

기존 모델 : f(x)

설명 모델 : g(x')

입력 데이터 변환 함수 : h(x') = x

 

즉 설명 모델 g의 역할은

g(x') = f(h(x'))를 구현하는 것이다.

 

여기서 함수 g는 다음과 같이 설정된다.

대표사진 삭제

사진 설명을 입력하세요.

각 특성의 기여도를 합산헤서 기준값에 더하는 원리이다.

 

 

LIME

LIME(Local Interpretable Model-Agnostic Explanations)은 복잡한 머신러닝 모델을 지역적(Local) 선형 모델로 설명하는 방법이다. LIME은 우선 입력 데이터 x를 해석 가능한 데이터 x'로 변환한다. 예를 들어 자연어 데이터는 해당 단어의 존재 여부를 0과 1로 변환한다.

 

원래 모델의 예측값과 설명 모델의 예측값 간의 차이를 가장 작게 하는 손실함수와 정규화 항으로 구성된다.

 

위 방법은 모델 전체를 해석하는 것이 아닌 지역적인 정보(여기서는 단어의 유무)만을 해석한다. 또한 지역적인 분포에서 g를 탐색하기 때문에 직관적인 해석을 제공하지만 원래 모델을 완벽하게 설명하지는 않는다.

대표사진 삭제

사진 설명을 입력하세요.

DeepLIFT

DeepLIFT 모델은 딥러닝 모델에서 주로 사용되고, 기준값(특정 특성도 없을 때의 모델의 예측값) 과 출력값(해당 특성을 부여했을 때의 예측값)의 변화량을 통해 그 특성이 얼마나 출력값에 영향을 미치는지를 기준으로 해석한다.

대표사진 삭제

사진 설명을 입력하세요.

다음 수식은 특정 특성을 부여하지 않았을 때와 부여했을 때의 입력값 차이(델타 xi), 출력값 차이(델타o)를 합산하면 기존 모델의 출력값이 나온다는 내용을 포함한다. 여기서 C는 특성 기여도를 나타낸다.

 

Layer-Wise Relevance Propagation(LRP)

LRP는 DeepLIFT의 일종이라고 볼 수 있다. 그러나 모든 뉴런의 기준값을 0으로 설정한다는 점에서 차이가 있다. 또한 위 모델은 예측값을 입력층까지 역전파하면서 그 기여도를 계산한다는 점에사 차이가 있다.

 

Classic Shapley Value Estimation

샤플리 값이란 각 특성이 모델의 예측에 미치는 영향을 수치화한 것이다. 이 샤플리값을 계산하는 방법으로는 회귀 방법, 샘플링 방법, QII(Quantitative Input Influence) 방법이 있다.

 

회귀 방법은 특정 특성이 모델의 예측에 미치는 영향을 파악하기 위해 해당 특성을 포함했을때와 포함하지 않았을 때의 차이를 계산한다. 그러나 이 방법은 모든 경우의 수에 대해 계산을 진행하기 때문에 컴퓨팅 비용이 많이 든다는 단점이 있다.

 

이를 개선하기 위해 샤플리 샘플링 방법은 모든 경우의 수에 대해 계산하지 않고 일부에 대해서만 샘플링하여 계산한다. QII 방식은 샤플리 샘플링 방법을 개선해 특성 간의 상호작용까지 계산할 수 있는 모델이다.

 

여기까지가 논문에서 언급한 6가지 전통적인 설명 모델이다. 각 방법론은 모두 머신러닝/딥러닝 모델의 예측을 설명하기 위해 특성이 출력값에 미치는 영향을 분석한다는 공통점이 있다.

 

이러한 가산적 특성을 결정하는 성질에는 세 가지가 있다.

 

  1. Local Accuracy

설명 모델(g)의 예측값은 원래 모델(f)의 예측값과 일치해야한다. 즉 설명 모델이 기존 모델을 잘 근사해야 한다는것을 의미한다. 이러한 점은 기본값에 각 특성의 기여도를 합한 것이 기존 모델의 예측값, 즉 f(x)와 같아진다는 원리로 설명이 가능하다.

 

2. Missingness

존재하지 않는 특성은, 즉 원래 모델에서 사용되지 않은 특성은 설명 모델에서 역시 기여도가 0이라는 점이다.

 

3. Consistency

일관성, 즉 어떠한 특성의 중요도가 증가할 때 그 특성이 미치는 영향 역시 증가해야한다는 직관적인 원리이다.

 

정리1)

논문에서는 이 세 가지 성질을 모두 만족하는 설명 방법이 SHAP라고 말하고 있다.

 

따라서 이러한 SHAP를 측정하는 방법을 제안한다.

 

모델 불가지론적 근사(Model-Agnostic Approximation)

  • 샤플리 샘플링 / QII : 기존의 방법과 동일하다. 그러나 이는 각 특성이 독립일 때 높은 성능을 기대할 수 있다.
  • Kernal SHAP : linear LIME과 샤플리 값의 개념을 융합한 것이다. 이는 LIME의 비일관성을 SHAP를 통해 보완했다. 또한 샘플링 방식을 활용해 계산량을 줄였다. 샘플링된 값을 선형 회귀 모델에 입력하고 이 모델의 파라미터가 SHAP값이 된다.

 

 

정리2)

선형 회귀를 통해서 SHAP값을 근사할 수 있다. 따라서 Kernal SHAP는 최적의 계산법이다.

 

모델 특화 근사(Model-Specific Approximation)

  • Linear SHAP : 선형 회귀 모델에서 주로 사용될 수 있고 가중치, 즉 선형 모델의 파라미터로 직접 SHAP값 계산이 가능하다.
  • Low - Order SHAP : 특성의 개수가 적다면 근사를 사용하지 않고 직접 SHAP를 계산하는 것이 빠르다.
  • Max SHAP : 최댓값을 사용하는 모델에서 적용된다. 각 특성의 입력값이 최대값에 얼마나 영향을 미치는지를 기반으로 작동한다. 입력값이 정렬된 상태에서 각 특성이 미치는 영향을 계산함으로써 계산량을 효율적으로 줄일 수 있다.
  • Deep SHAP : Deep LIFT와 샤플리 값을 합친 개념이다. 이는 딥러닝 모델에서 주로 사용된다. 딥러닝 모델의 신경망을 작은 컴포넌트로 나누고 각 부분의 SHAP값을 역전파 방식으로 조합한다.

 

 

모델링 실험 결과

  1. 계산 속도 및 정확도 : Kernal SHAP, LIME, Shapley Sampling을 비교했을 때, 많은 연산이 필요한 샘플링 방법, 일관성을 보장하지 않는 LIME 방법에 비해 Kernal SHAP가 높은 성능을 보였다.

2. 인간 직관 일치도 : SHAP, LIME, DeepLIFT 모델을 비교했을 때, SHAP가 가장 정확한 성능을 보였고, 오히려 DeepLIFT는 인간의 직관과 반대되는 출력값을 내기도 하였다.

3. 이미지 분류 : 손글씨 숫자 MNIST 데이터셋을 통해 실험이 진행되었다. 여기서는 이미지 8이 3으로 잘못 분류되는 원인에 대한 설명을 구했는데, 이 역시 SHAP가 가장 높은 성능을 보였다. 특히 LIME은 위 경우에서도 일관되지 못한 출력값을 보였다.

 

결론

본 연구에서는 모델의 정확도와 설명 가능성 사이의 Trade-off 문제를 해결하기 위해 SHAP가 가장 나은 방법이라는 점을 증명했다. 또한 Kernal SHAP, Deep SHAP 등의 변형 모델을 통해 향후 연구 목적에 맞는 AI의 설명 모델을 제시했다.