Transformer 해석과 Attention Heads
1. 서론 최근 딥러닝은 트랜스포머를 바탕으로 더욱 빠르게 성장하고 있다. 트랜스포머에는 어텐션 (Multi-Head Attention, MHA) 과 MLP 라는 두 개의 주요 모듈이 존재하며, 이들의 활성화된 값을 이해하는 것은 모델의 의사결정에 대한 해석을 제공해준다. MHA 의 역할은 입력 토큰들에 대한 정보교환, MLP 의 역할은 메모리로부터 정보생성의 관점이 알려져 있다 [2,3,4,5]. 트랜스포머의 내부에 대해서는 아직 의견이 분분하지만, 적어도 두 가지 모듈 중에서 MHA 대한 해석은 상당히 많은 연구가 진행되었다 [6,7,8,9]. 이 글에서는 최근 발달한 MHA 에 대한 연구들을 기반으로, 트랜스포머 MHA 에 대하여 풀린 문제를 정의하고 풀리지 않은 추가적인 문제를 의논한다. MHA ..
더보기