[2024-1] 양소정 - A Survey of the State of Explainable AI for Natural Language Processing

https://arxiv.org/abs/2010.00711

Abstract

최근 몇 년간 state-of-the-art 모델의 품질이 크게 향상되었지만, 해석 가능성이 감소했다.
2020년 기준 자연어 처리(NLP) 분야에서의 설명 가능한 인공지능(Explainable AI, XAI)의 상태를 다룬다.
모델 개발자를 위한 NLP 모델 예측에 대한 설명을 생성하는 데 사용할 수 있는 작업과 기술을 자세히 설명한다.
마지막으로 현재 부족한 점을 지적하고 향후 연구 방향을 제시한다.

Introduction

기존의 NLP 시스템은 규칙(rules), 의사결정 트리(decision trees), 히든 마르코브 모델(hidden Markov models), 로지스틱 회귀(logistic regressions) 등 ‘화이트 박스’ 모델을 기반으로 했다. 하지만 최근 딥러닝 모델과 언어 임베딩을 사용한 ‘블랙 박스’ 모델이 인기를 끌면서 모델의 해석 가능성이 떨어졌다.
모델이 결과에 도달하는 과정을 투명하게 알 수 없으면 챗봇, 추천 시스템, 정보 검색 알고리즘 등 매일 사용하는 AI 시스템에 대한 신뢰가 약화되는 문제가 될 수 있다.
설명가능성의 중요성에 대한 이해가 높아지면서 XAI 분야가 부상했다. 이 논문은 NLP 분야에서의 XAI 연구를 다룬다. 따라서 지난 7년간 주요 NLP 컨퍼런스에 나타난 NLP 분야의 XAI 작업에 초점을 맞추었다.

3 Categorization of Expalanations

설명은 두 가지 측면에서 분류된다:
1. 개별 예측에 대한 설명(로컬, Local) 또는 모델의 예측 과정 전체에 대한 설명(글로벌, Global)
2. 예측 과정에서 모델 자체가 직접 생성하는 설명(자체 설명, Self-Explaining) 또는 예측 후 추가 처리로 생성하는 설명(사후 설명, Post-Hoc)

3.1 Local vs Global

로컬 설명(Local explanation)
- 특정 입력에 대한 모델의 예측에 대한 정보를 제공한다.
- 이 조사에서 50개의 논문 중 46개가 해당된다.
글로벌 설명(Global explanation)
- 특정 입력과 무관하게 모델의 예측이 어떻게 작동하는지 전반적인 과정을 설명함으로써 정당성을 보여준다.
- 이 조사에서 4개의 논문이 해당된다. (이러한 수치 차이는 이 조사가 모델의 일반적인 과정을 이해하는 설명보다는 예측을 정당화하는 설명에 집중한다는 것을 보여준다.)

3.2 Self-Explaining vs Post-Hoc

자체 설명(Self-Explaining)
- 예측 과정의 정보를 사용하여 모델의 예측과 동시에 설명을 생성한다. 이 방식은 ‘직접 해석 가능하다’라고도 한다.
- 예: 의사결정 트리, 규칙 기반 모델 등
사후 설명(Post-Hoc)
- 예측 이후 추가 연산으로 설명을 생성한다.
- 예: LIME(Local Interpretable Model-agnostic Explanations) - 예측 후 대리 모델을 사용하여 설명을 생성한다.

4 Aspects of Explanations

설명 도출 기법과 사용자에게 제공하는 방식에 따라 설명을 나눈다.
- 설명 도출 기법
  - AI 과학자, 엔지니어의 영역
  - 모델 결과의 수학적 정당성에 초점
- 사용자에게 제공하는 방식 — 시각화
  - UX 엔지니어의 영역
  - 최종 사용자에게 가장 효과적으로 제시하는 방법에 초점

feature importance 기반 접근법과 대리 모델 기반 접근법이 자주 사용되었다.

4.1 Explainability Techniques

설명 도출 기술

feature 중요도(Feature Importance)
- 모델이 최종 예측을 출력하기 위해 사용한 다양한 feature들의 중요도를 조사하여 설명을 도출한다.
- feature의 유형:
  - feature 엔지니어링에서 얻은 manual features
  - 단어/토큰 및 n-gram을 포함한 어휘(lexical) features
- feature importance 기반 설명을 가능하기 위해 널리 사용되는 두 가지 연산:
  - Attention mechanism
  - first-derivative saliency
대리 모델(Surrogate Model)
- 설명 가능한 대리 모델을 학습시켜 원래 모델의 예측을 설명한다.
  - 장점: 로컬과 글로벌 설명 모두에 사용할 수 있다.
  - 문제점: 학습된 대리 모델과 원본 모델은 예측 매커니즘이 완전히 다를 수 있다는 점에서 대리 모델 기반 접근법의 신뢰도에 우려가 제기될 수 있다.
- 예: LIME(Local Interpretable Model-agnostic Explanations)
예제 기반(Example-Driven)
- 레이블이 지정된 데이터에서 입력 instance와 의미적으로 유사한 다른 instance를 제시하며 입력 instance의 예측을 설명한다.
- 사용 예:
  - nearest neighbor 기반 접근법
  - 텍스트 분류
  - 질문 답변 (QA)
출처 기반(Provenance-Based)
- 예측 도출 과정의 일부 또는 전부를 단계별로 보여준다.
선언적 귀납법(Declarative Induction)
- 규칙, 트리, 프로그램과 같이 사람이 읽을 수 있는 표현으로 설명한다.

4.2 Operations to Enable Explainability

설명을 가능하게 하는 기본 연산(작업)

일차 도함수 중요도(First-Derivative Saliency)
- input에 대한 output의 부분 도함수를 계산하여 output에 대한 input의 기여도를 추정한다.
- 단어/토큰 수준의 feature에 대해 feature 중요도를 설명하는 데 사용할 수 있다.
레이어별 관련도 전파(Layer-Wise Relevance Propagation)
- NN의 중간 레이어의 feature에 관련도를 부여한다.
- fully connected 레이어, convolution 레이어, recurrent 레이어 등 대부분의 일반적인 NN 레이어에 사용할 수 있다.
- feature 중요도(Feature Importance), 예제 기반(Example-Driven) 설명에 사용되어 왔다.
입력 변형(Input Perturbations)
- 입력 데이터를 변형하여 설명 가능한 모델을 학습시키며 입력에 대한 출력을 설명할 수 있다.
- 대리 모델(Surrogate Model) 설명에 사용된다.
어텐션 메커니즘(Attention Mechanism)
- NN 모델이 어디에 집중하는지 시각화하여 설명을 도출한다.
- feature 중요도를 설명하기 위해서 attention 레이어를 사용해왔지만, attention 레이어가 제공하는 설명의 정도에 대해서는 아직 논란이 있다.
LSTM 게이트 신호(LSTM Gating Signals)
- LSTM의 게이트 출력 정보를 사용하여 설명한다.
  - 언어의 순차적 특성을 고려하여 recurrent 레이어, 특히 LSTM이 일반적이다. 출력을 설명하기 위해 LSTM 셀의 출력을 마이닝하는 것이 일반적이지만, 셀 내에서 생성되는 게이트의 출력에도 정보가 존재할 수 있다.
  - feature 중요도(Feature Importance), 설명에 사용할 수 있다.
설명 가능성 인지 아키텍처 설계(Explainability-Aware Architecture Design)
- 인간이 인식할 수 있는 구성 요소를 포함한 아키텍처를 설계한다.
- 대리 모델(Surrogate Model) 설명에 사용할 수 있다.

4.3 Visualization Techniques

시각화 기법

+) (e) raw example을 사용하여 예제 기반 접근법 설명

중요도(Saliency)
- 중요도 점수를 시각적으로 표시한다.
- (a) 입력-출력 단어 정렬 표시
- (b) 입력 텍스트의 단어 강조 표시
- 이 조사에서 다룬 논문 중 가장 많이 사용된 시각화 기법
원시 선언적 표현(Raw Declarative Representations)
- 규칙, 트리, 프로그램과 같은 형태로 설명을 표시한다.
- (c) (d) 논리 규칙, 트리, 프로그램 등 학습된 선언적 표현 (declarative representation)을 직접 제시
- 최종 사용자가 first-order logic rules 및 reasoning trees와 같은 특정 표현을 이해할 수 있다고 가정하므로 암묵적으로 전문 사용자를 대상으로 한다.
자연어 설명(Natural Language Explanation)
- 인간이 이해할 수 있는 자연어로 설명을 표현한다.
- 딥러닝 모델을 사용하거나 간단한 템플릿 기반 접근 방식을 사용하여 생성할 수 있다.

5 Explanation Quality

설명 품질

XAI의 목표에 따라 모델의 품질은 정확도와 성능뿐만 아니라 예측에 대한 설명을 얼마나 잘 제공하는지에 따라 평가되어야한다.
설명 품질을 평가하기 위한 여러 방법이 있는데 주로 인간 평가를 포함한 다양한 평가 기법이 사용되며, 설명이 얼마나 잘 모델의 예측을 설명하는지를 평가한다.

5.1 Evaluation

평가 방법

이 분야의 역사가 짧기 때문에 설명의 평가 방법에 대한 합의가 거의 없다. 50개의 논문 중 32개에는 표준화된 평가가 없거나 비공식적인 평가만 포함되어 있다. 그 외 소수의 논문에서는 근거 데이터 활용(ground truth)과 인적 평가(human evaluation) 등 공식적인 평가 방법을 사용했다.

비공식적 평가(Informal Examination)
- 생성된 설명이 인간의 직관과 얼마나 잘 맞는지 평가한다.
실제 데이터와의 비교(Comparison to Ground Truth)
- 설명 가능성 기법의 성능을 정량화하기 위해 생성된 설명을 실제 데이터와 비교하여 성능을 평가한다.
- 사용되는 지표는 작업과 설명가능성 기법에 따라 다르지만 일반적으로 사용되는 지표는 다음과 같다:
  - Precision/Recall/F1 score
  - perplexity
  - BLEU
- ground truth의 정확성을 보장하고 다른 유효한 설명이 있을 경우를 고려하며 데이터를 수집해야 한다.
인간 평가(Human Evaluation)
- 생성된 설명을 사람이 평가한다.
- 여러 사람이 참여하고 사람들 간에 합의하여 응답의 주관성과 편차를 올바르게 처리하는 것이 중요하다.

5.2 Predictive Process Coverage

예측 프로세스의 적용 범위

많은 설명 접근 방식이 예측 과정의 일부만 설명하며, 나머지는 사용자가 이해하도록 남겨둔다.
예: MathQA 모델 - 수학 문제 해결 과정은 단계별로 설명하지만, 모든 단계를 다루지는 않는다.
제공하는 설명의 최적의 범위는 설명 대상과 용도에 따라 달라질 수 있다.

6 Insights and Future Directions

최근 7년간 주요 NLP 학회에서 발표된 XAI 연구를 다루며 XAI 연구는 명화한 용어 정의와 평가 기준의 부족 등 등 여러 가지 과제가 있음을 알 수 있었다.
미래의 연구는 설명의 정확도(fidelity)와 원인(causality) 문제를 더 깊이 있게 다뤄야 하며, 인간 평가 기준을 확장하고 표준화된 평가 지표를 개발하는 것이 중요하다.
또한, 블랙 박스 모델의 설명에 집중하는 현재의 연구 경향에서 벗어나 화이트 박스 모델도 더 많이 연구할 필요가 있다.

'Natural Language Processing' 카테고리의 다른 글

[2024-2] 백승우 - Retrieval-Augmented Generation for Large Language Models: A Survey (1)	2024.11.11
[2024-2] 백승우 - (RAG) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (6)	2024.11.03
[2024-1] 현시은 - CodeS: Towards Building Open-source Language Models for Text-to-SQL (0)	2024.05.28
[2024-1] 현시은 - AIOS: LLM Agent Operating System (1)	2024.05.17
[2024-1] 현시은 - Optimizing LLM Queries in Relational Workloads (0)	2024.05.14