본문 바로가기

딥러닝/자연어(NLP)

Transformer 모델 학습은 생각보다 어렵다.

 

Computational Linguistics의 발달로 모델의 성능을 인간을 뛰어넘는 경우가 종종 생기고 있다. Squad 2.0의 Q&A모델이 대표적인 예인데, 사람이 정답을 찾는 것보다 모델이 찾는 게 훨씬 더 정확도가 높으며 사람들은 모델이 생성해낸 가짜 뉴스를 쉽게 구분하지 못하고 있습니다.[1]

 

NLP의 경우, 데이터의 양이 어마무시하고, 모델의 사이즈가 크기 때문에, 훈련하는 게 마냥 쉽지만은 않다.

 

 

Facebook의 fairseq[2]는 sequential모델에 대한 open source 라이브러리로 직접 transformer 모델을 훈련시키고 내부를 변화시킬 수 있습니다. 현재 이 모델을 훈련하고 있는데, 트랜스포머의 주변에 새로운 모듈을 추가해서 그 성능을 높이는 일을 하고 있습니다. 따라서 모듈을 개발해서 기존 트랜스포머의 기능을 업그레이드 하는 연구를 진행 중인데, 트랜스포머가 생각보다 강력해서 다른 모듈을 추가해줬을 때, 성능의 차이가 많지 않은 것 같습니다.

 

기본 transformer의 인코더 디코더 구조에 직관적인 모듈을 생각해내고 적용하는 것은 꽤나 매력적으로 들리지만...

 

트랜스포머의 약점이 무엇인지 알지 못한다는 게 아직까지 연구가 진행되지 않는 이유인 것 같다.


출처 : FXNNXC

Refrences

[1] Transformers Are Better Than Humans at Identifying Generated Text
arxiv.org/pdf/2009.13375.pdf

[2] Fairseq
github.com/pytorch/fairseq