에세이

블랙 박스 모델의 설명성 연구 방향

Rudi 2023. 5. 7. 21:05

1. 소개

지난 수 년간 딥러닝은 지속적으로 발전해왔다. 많은 연구자들이 모델의 성능을 올리기 위해서  네트워크 구조, 데이터, 학습 알고리즘들을 개발했으며, 성능이 오르면서 모델의 의사결정을 해석하는 기술들, 일명 설명가능인공지능 또한 발전하였다. 그러나 블랙박스 모델을 설명하는 것은 여전히 어려운 문제로 남아있으며, 설명성 기술 자체가 지니는 의미를 파악하고 설명성의 편향 (explanation bias)을 이해하는 것은 쉽지 않다. 블랙 박스 모델을 설명하기 위해서 기존 연구자들이 어떠한 문제를 정의하였고, 어떻게 풀었는지, 그리고 여전히 풀리지 않은 문제는 무엇인지 회고하여 블랙박스모델의 설명성 연구방향성을 제시하고자 한다. 또한 기존 설명 방법들에 대하여 문제 인식과 풀린 문제들에 대하여 논하며, 설명가능 인공지능의 역할에 대하여 방향성을 제시하고자 한다. 

 

챕터:블랙 박스 모델에서는 가장 많이 사용되고 있는 기법인 사후(post-hoc) 기법들에 대해서 다룬다. 사후 기법들은 모델 내부 값들에 대한 분석을 제시함으로써 의사결정을 해석한다. 모델의 입력에서 출력으로 이어지는 과정에서 내부에 발생된 정보의 해석을 목적으로 하며, 이에 대한 원초적인 문제는 다음과 같다. 

 

➕문제:블랙 박스 모델의 내부 표현이 지니는 의미를 해석하는 것”

 

해당 연구들은 학습된 모델의 내부정보를 활용하여, 입력기여도를 찾거나, 파라미터를 분석하는 방식으로 모델의 설명성을 제공해준다. 

 

챕터:설명성을 내재한 모델에서는 사후 설명가능기법 대신 설명가능한 모듈을 디자인 것에 대하여 논한다. 설명성을 내재하는 방식은 의사결정을 일차원적으로 만들어서 해석하는 방식으로 다음과 같은 문제를 가정한다. 

 

➕문제:설명 가능 모델을 어떻게 디자인 하는가” 

 

설명가능한 모델은 Post-hoc 기법들보다 해석이 보다 쉽다는 장점이 있기에 최근 많은 연구가 이루어지는 분야이다. 그러나 이러한 방식으로 설명성을 줄 경우, 어떠한 한계가 있는지 살펴보고자 한다. 

 

블랙 박스 모델은 우리가 이해할 수 없을 정도로 복잡하지만, 의미있는 표현공간을 가지고 생각한다. 그렇기에 모델을 이해하는 것, 그리고 이를 활용하는 것은 딥러닝이라는 도구를 다루기 위해서 반드시 필요한 과정이다. 기존 연구들을 회고함으로써 많은 연구자들에게 앞으로 연구에 도움이 되길 바란다. 

 


2. 학습된 모델의 설명성 

 

이 장에서 다루는 문제는 “블랙 박스 모델의 내부 표현이 지니는 의미를 해석하는 것” 이다. 여기서 블랙 박스 모델이란, 초기화된 모델이 데이터와 학습 알고리즘을 통해서 충분한 성능을 내도록 파라미터가 학습된 상태를 나타내며, 모델은 내부적으로 유의미한 표현공간을 지닌다. 모델의 의사결정을 설명하는 기존 연구들은 다루고자 하는 대상에 따라서 크게 3 가지로 구분 될 수 있다. [1]

 

  • 🍀Attributions : 의사결정에 기여한 정도
  • 🔺Activations : 활성화된 형태
  • 🔷Weights : 활성화를 위한 형태

 

딥러닝의 내부적인 요소 3가지는 다음과 같이 이해할 수 있다. 입력이 주어질 경우, 모듈의 Weight 와 결합하여, Activation 을 만들게 되고, 최종 의사결정에 기여한 정도가 Attribution 이다. 

 

예를 들어서, 영화리뷰 점수를 예측하는 경우, 텍스트가 내부에서 벡터 형태의 입력값으로 변하게 되고, 특정 모듈의 Weight는 욕설에 높은 값을 줄 수 있다. 만일 욕설로 인해서 점수가 낮다고 판단한다면, 해당 입력 벡터는 낮은 점수를 만드는 데 기여했다고 할 수 있다. 

 

  • 🍀Attribution: 리뷰 점수에 대하여 벡터가 기여한 정도
  • 🔺Activation: 욕설의 의미를 지니는지 정량적인 정보
  • 🔷Weight: 욕설의 의미를 지니는 정보에 강하게 반응하는 정도

 

이러한 해석을 위해서는 한 가지 가정이 필요하다. 해당 모듈이 “욕설에 대해서 반응한다”는 가정이다. 이러한 가정이 없다면, 모듈을 위와 같이 해석하는 것은 옳지 못하다. 대단히 깔끔한 해석이지만, 실제로는 대부분의 신경망들이 하나의 의미에 대해서 반응하는 것이 불확실할 뿐만아니라, 여러 개의 의미에 동시에 반응하는 모듈도 존재한다. 따라서 컨셉을 기반으로 모듈을 해석하는 것은 모듈이 지니는 해석가능한 의미를 먼저 파악해야 한다는 한계점을 지니고 있다. 그렇기에 대부분의 연구들은 내부적인 표현공간보다는 해석이 가능한 마지막 레이어들을 분석대상으로 한다. 예시로 Transformer 에 대해서 간단한 예측 모델들은 이러한 모듈이 존재함을 보였고, Skill Neuron 이라고 지칭하였다 [3]. 

 

2.1  기여도, 활성화도에 따른 해석

 

복잡한 내부와 다르게, 처음 입력 정보의 의미는 명확하다. 우리는 시각적으로 혹은 의미적으로 입력 정보를 해석할 수 있기 때문에, 해당 정보에 Attribution을 계산하는 방식으로 모델의 의사결정에 대한 기여도를 해석할 수 있다. 이로부터 파생된 방법들은 Gradient 기반, Relevance Score 기반이 있다. 두 가지 모두 의사결정 정보를 입력 레벨까지 전파하는 것을 목적으로 한다. 

 

입력 레벨로 전파되는 것과는 다르게 Class Activation Map [18] 은 마지막 Receptive Field 의 Activation 값을 사용한다는 점에서 Activation 값을 해석하는 방법이다. 즉, 모듈에 대해서  Attribution 을 측정이 아니라는 차이점이 있다. 그러나 더 발전된 GradCAM [17] 의 경우는 Activation 값과 Gradient를 모두 사용하므로, Attribution Activation 이 결합된 형태로 생각할 수 있다. 

 

기존의 많은 설명가능 연구들은 어떻게 하면 입력레벨로 해석성을 주는 지 알고리즘을 개발하는데 집중하였다. Attribution을 어떻게 계산할지, Activation 을 어떻게 해석할지 논의하였다. 이러한 모델링의 배경에는 입력 정보가 쉽게 해석된다는 가정이 존재하며, 의사결정에 대한 설명성이 옳다는 것을 실험적으로 증명해야 했다 (강아지 분류에 대한 설명성이 가령 강아지의 얼굴에 히트맵을 남기는 것과 같은 형태). 

 

그러나 입력 정보가 해석불가능한 형태라면 이러한 해석성은 불가능하다. 예를 들어서, 이미지 분류에서는 근사한 픽셀들이 국소적으로는 유의미한 정보를 담고 있다고 가정하며, 텍스트 분류에서는 각 단어들이 지니는 의미를 파악할 수 있다. 만일 해석 불가능한 벡터의 형태가 주어진다면 설명가능 인공지능을 사용할 수 없다. CLIP 모델의 입베딩을 보고 벡터의 의미를 해석하는 것이 쉽지 않은 것이다. 

 

개인적으로 사후 해석의 가장 큰 문제점은 설명성에 대한 자의적인 해석에 있다고 본다 [4]. 의사결정의 결과물이 옳은지를 차치하고, 설명된 결과를 어떻게 해석해야 하는지는 여전히 어려운 문제로 남아있다. 이는 대부분의 의사결정 알고리즘들이 자신만의 방법론을 따르기 때문이다. 

 

Gradient 또는 Relevance Score 기반의 알고리즘들은 더욱 신뢰할 수 있는 Attribution을 만들기 위해서 알고리즘 형태로 개발되어 왔으며, 내부 정보를 어떻게 처리하는지에 따라서 다른 결과가 나오게 된다. 예를 들어서 LRP의 경우, 모듈에 따라서 다른 룰(초반, 중반, 후반 레이어)이 존재하며 Taylor Decomposition 을 위한 Baseline(epsilon and  Z+ Rule) 을 다르게 선택할 수 있다. 

 

설명기법에 따라서 다른 결과물이 나오기에 모델의 의사결정을 설명하는 방향이 여러가지로 존재할 수 있는 것이다. 또한 Gradient 기반의 경우, Gradient 정보의 신뢰성에 대해서 논쟁이 오가는 만큼 (Gradient Shattering 과 같은 문제들), 결과물에 대해서 해석하는데 어려움을 갖는다.   

 

물론 해석이 어려울 수 있을지라도 의사결정에 대하여 설명성을 제공해 주기에 기여도를 찾는 문제는 중요하고 볼 수 있다. 그러나 이 분야는 “입력의 어떤 부분이 기여했는지 찾는 문제”에 한정되어 있으며, 개인적으로는 CNN에 대해서는 이 분야가 어느정도 연구가 완료된 분야라고 생각한다. 

 

블랙 박스 모델에 대한 해석성은 다음과 같이 요약될 수 있다. 

  • ➕ 문제 : 딥러닝 모델 내부의 해석성 
  • 👍 풀린 문제 : 입력 단에 정보를 Projection 하여 히트맵 해석 
  • 😣안 풀린 문제 : 중간 레이어의 정보에 대한 해석 (상당히 어렵다)

 

좀더 정확히 말하면 풀린 문제에 대해서도 안 풀린 문제가 있다. 

  • ➕문제 : 입력의 어떤 부분이 기여했는지 찾는 문제
  • 👍풀린 문제 : CNN에서 해석성
  • 😣안 풀린 문제 : Transformer Attention Activation 해석

 

최근 연구들은 Transformer 에 대해서 해당 문제를 풀고 있으며  [11, 12, 13], 추가적인 연구가 필요한 분야로 보인다. Transformer 는 Attention 을 지니고 있으며, 이를 해석하는 것은 Activation 기반 분석으로 이해될 수 있다. CNN에서는 Activation 된 정도가 이미지의 Receptive Field로 해석되기 되었는데, 과연 Attention 값이 동일하게 Receptive Field 로 해석될 수 있는지는 논란의 여부가 남아있다. 

 

2.2 모델 Weight 해석 

 

기존의 모델 해석적인 관점들은 입력값 혹은 이로부터 생겨난 내부 표현에 대한 기여도 및 활성화된 정도를 측정하는 것이었다. 이와 반대로 고정된 Weight 를 해석하는 것은 최근에 더욱 발전하는 분야이다. 특히나 Weight 를 컴퓨터 언어의 Instruction으로 보는 관점 [1] 부터, Key-value 메모리 [5] 로써 해석하는 분야들은 Weight 가 지니는 의미를 해석함으로써 모델이 의사결정이 내리는 과정을 설명해준다. 

 

 Key-value적인 관점은 Transformer의 MLP 레이어에 대한 해석성을 증가시켰으며 [9], 최근 연구된 Factual GPT [6], MEMIT [7] 과 같은 연구들은 Weight 가 지니는 의미를 메뉴얼 하게 업데이트 함으로써 직접적인 의미를 지니도록 하였다. 또한  CNN에 대해서는 [8]의 연구가 Generative Model에 대해서 Weight 를 수정함으로써 생성하는 방식을 수정하였다. 이런식으로 Weight 가 지니는 의미를 명시적으로 인코딩 함으로써, 해당 Weight 가 활성화되는 경우에 대한 해석성을 명확하게 할 수 있었다.  

 

고정된 Weight  은 아니지만,  TCAV  [10] 에서는 컨셉에 대한 벡터를 찾으므로써, 모델 내부에서 표현공간이 지니는 의미를 해석하였는데, 이 또한 임의의 입력에 대해서 유사도를 측정할 수 있으므로 가상의 Weight 으로 해석될 수 있다. Weight 에 대한 연구는 기여도에 연구보다 쓰임새가 많은데, 모델의 내부를 수정할 수 있기 때문이다. 

 

  • ➕ 문제 : Weight 를를 수정하여 정보 입력
  • 👍 풀린 문제 : Rank One Weight Editing [6,8]
  • 😣안 풀린 문제: 수정된 Weight 이 이후 레이어에 미치는 영향 분석

 

모델 내부 정보를 수정하는 것은 End-to-End 학습 방식보다 효율적이며, 다른 레이어에 미치는 영향이 적기에 앞으로도 효율적인 학습을 위해서 중요한 기술이다. 그러나 내부를 수정하는 문제를 풀기 위해서는 내부표현이 지니는 의미와 역할에 대해서 명시적으로 해석할 수 있는 기술이 필요하다. 

 

  • ➕ 문제 : Weight 을 해석하는 방법
  • 👍 풀린 문제 :  
  • 😣안 풀린 문제: [미지수] 

 

모델 내부를 해석하는 Attribution, Activation, Weight 에 대해서 분석하면서, 앞으로 Weight 을 해석하는 것이 중요해질 것 같고, 이를 위해서 AttributionActivation이 적극적으로 활용될 것 같다. 그 이유는, Weight의 의미를 알면, 내부 과정을 이해할 수 있기 때문이다. 설명성에 대한 연구가 Weight 에 집중해야 하는 이유는 앞에서 말한 해석의 모호성에 있다. 설명의 결과에 주관이 들어가기 때문에 이를 믿지 못하는 사람들이 많으며, 설명성이 모서리 감지라는 Sanity Check (제정신인지 확인) [14]  와 같은 논쟁이 발생하기 때문이다. 이러한 모호성으로부터 자유로워지기 위해서 최근에는 애시당초 설명성을 지니고 있는 모델을 만들라는 주장을 한 논문도 등장하였다 [4]. 


3. 설명성을 내재한 모델 

설명성을 내재한 모델은 모델의 마지막 레이어에 프로토타입 (Prototypes)들을 가져다 놓고, 선형적인 의사결정을 하는 방식이다. 최근 연구에서 Prototype Patch Network [15]와 같은 연구들은  컨셉을 담고 있는 패치들을 마지막 배치하여 유사도를 측정함으로써 분류모델을 학습시켰고, 비슷하게 강화학습에서 입력 이미지의 유사성을 바탕으로 컨트롤을 진행함으로써 [16], 해석가능한 모델들을 만들었다. 

 

개인적으로설명성을 내재한 모델은 전혀 다른 철학을 가진다고 생각한다. 

  • 사후: (1) 딥러닝 모델 내부에 대한 이해 + (2) 의사결정 분석 + (3) 내부 수정
  • 내재 : 입력 공간으로 마지막 공간을 해석하며, 의사결정이  확실하게 보이는 모델 

 

마지막 레이어에 의미있는 프로토타입들을 배치함으로써, 마지막 레이어인 (의사결정 레이어)의 선택이 명시적으로 프로토타입에 대한 유사도 선택 문제로 치환된다. 즉, 모델의 의사결정을 설명하기 보다, 비슷한 이미지를 고르는 방식으로 의사결정을 하는 것이다.  이 때, 설명성을 내재한 모델의  블랙 박스 인코더는이미지를 적절한 프로토타입 근처로 인코딩 하는 것이다. 이러한 연구는 사람들이 해석에 대해서 기대하는 바를 의사결정에 포함시킨 결과물로 사료된다. 

 

설명성을 내재한 모델은 의사결정 방식을 바꾼 모델링 방식으로, 이는 다르게 말하면, 만일 의사결정의 설명을 목표로 한다면, 그리고 그것이 입력 이미지에 대한 해석이라면,  Post-hoc 으로 의사결정을 설명하는 딥러닝은 내재된 모델보다 사용빈도가 줄어들 수 있음을 말한다. 그러나 이러한 방식은 내부에 대한 해석성을 전혀 제시해주지 못하며, 수동적으로 프로토타입을 모델링 해줘야 한다는 치명적인 단점이 있다.

 

  • ➕ 문제 : 딥러닝 모델의 의사결정 해석
  • 👍 풀린 문제 : 입력 기반 의사결정 해석 (설명성을 내재한 모델)
  • 😣안 풀린 문제: 내부 의사 결정 해석

4. 결론

모델을 설명하는 것은 흥미롭다. 하지만 그 쓰임새에 대해서는 발전속도가 느렸던 것 같으며, 해석의 모호함으로부터 설명성을 내재한 모델링까지 발전한 것 같다. 그러나 이 글에서 설명성을 내재한 모델이 입력 공간에 대하여 설명성을 제시해줄 뿐이라는 한계성을 밝혔으며, 실제 모델의 설명성이 증가되는 것은 아니라는 생각이 든다. 설명성이 내부 회로 (Circuit) 에 대해서는 아무런 정보를 제공해주지 못하기 때문이다. 

 

또한 이 글에서는 델의 Weight 를 분석하고 수정하는 연구 방향성을 제시하였다. 이를 위해서는 Weight의 의미를 명시적으로 파악해야 하기에 기존 발전된 Attribution 과 Activation에 대한 해석을 기반으로 연구가 진행되어야 한다고 본다. 즉 모델 회로의 의미와 연산처리 과정을 명확하게 이해하는 것이 진정한 설명성이라고 생각한다. 개인적으로 설명성의 목표는 자동차 수리점처럼 고장나거나 수리가 필요한 경우 해결책을 제시하는 도구로써 발전해야 그 의미가 명확한 것 같다. 

 

빛나라 내 연구~~~

 


References 

 

[1] Voss, et al., "Visualizing Weights", Distill, 2021.

 

[2] Cammarata, et al., "Thread: Circuits", Distill, 2020.

 

[3] Finding Skill Neurons in Pre-trained Transformer-based Language Models (Wang et al., EMNLP 2022)

 

[4] Rudin, C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat Mach Intell 1, 206–215 (2019).

 

[5] S. Sukhbaatar, J. Weston, and R. Fergus. 2015. End to-end memory networks. In Advances in Neural Information Processing Systems (NIPS).

 

[6] Meng, Kevin, et al. "Locating and editing factual knowledge in gpt." arXiv preprint arXiv:2202.05262 (2022).

 

[7] Meng, Kevin, et al. "Mass-editing memory in a transformer." arXiv preprint arXiv:2210.07229 (2022).

 

[8] Bau, David, et al. "Rewriting a deep generative model." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16. Springer International Publishing, 2020.

 

[9] Transformer Feed-Forward Layers Are Key-Value Memories (Geva et al., EMNLP 2021)

 

[10] Kim, Been, et al. "Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav)." International conference on machine learning. PMLR, 2018.

 

[11] Chefer, Hila, Shir Gur, and Lior Wolf. "Transformer interpretability beyond attention visualization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

 

[12] Qiang, Yao, et al. "Attcat: Explaining transformers via attentive class activation tokens." Advances in Neural Information Processing Systems. 2022.

 

[13] Chefer, Hila, Shir Gur, and Lior Wolf. "Generic attention-model explainability for interpreting bi-modal and encoder-decoder transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

 

[14] Adebayo, Julius, et al. "Sanity checks for saliency maps." Advances in neural information processing systems 31 (2018).



[15] Chen, Chaofan, et al. "This looks like that: deep learning for interpretable image recognition." Advances in neural information processing systems 32 (2019).

 

[16] Kenny, Eoin M., Mycal Tucker, and Julie Shah. "Towards Interpretable Deep Reinforcement Learning with Human-Friendly Prototypes." The Eleventh International Conference on Learning Representations.

 

[17] Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.

 

[18] Zhou, Bolei, et al. "Learning deep features for discriminative localization." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.