Transformer 모델 학습은 생각보다 어렵다.

Computational Linguistics의 발달로 모델의 성능을 인간을 뛰어넘는 경우가 종종 생기고 있다. Squad 2.0의 Q&A모델이 대표적인 예인데, 사람이 정답을 찾는 것보다 모델이 찾는 게 훨씬 더 정확도가 높으며 사람들은 모델이 생성해낸 가짜 뉴스를 쉽게 구분하지 못하고 있습니다.[1]

NLP의 경우, 데이터의 양이 어마무시하고, 모델의 사이즈가 크기 때문에, 훈련하는 게 마냥 쉽지만은 않다.

Facebook의 fairseq[2]는 sequential모델에 대한 open source 라이브러리로 직접 transformer 모델을 훈련시키고 내부를 변화시킬 수 있습니다. 현재 이 모델을 훈련하고 있는데, 트랜스포머의 주변에 새로운 모듈을 추가해서 그 성능을 높이는 일을 하고 있습니다. 따라서 모듈을 개발해서 기존 트랜스포머의 기능을 업그레이드 하는 연구를 진행 중인데, 트랜스포머가 생각보다 강력해서 다른 모듈을 추가해줬을 때, 성능의 차이가 많지 않은 것 같습니다.

기본 transformer의 인코더 디코더 구조에 직관적인 모듈을 생각해내고 적용하는 것은 꽤나 매력적으로 들리지만...

트랜스포머의 약점이 무엇인지 알지 못한다는 게 아직까지 연구가 진행되지 않는 이유인 것 같다.

Refrences

[1] Transformers Are Better Than Humans at Identifying Generated Text
arxiv.org/pdf/2009.13375.pdf

[2] Fairseq
github.com/pytorch/fairseq

저작자표시 비영리 동일조건

'딥러닝 > 자연어(NLP)' 카테고리의 다른 글

Byte Pair Encoding 방법 (0)	2021.02.02
[논문 리뷰] Very Deep Transformers for Neural Machine Translation (0)	2021.01.25
나만의 자연어처리 공부방법 (0)	2020.08.24
About NLP (0)	2020.07.23
Colab에서 한글 사용하기 (0)	2020.07.17

Rudi

Transformer 모델 학습은 생각보다 어렵다.

Refrences

'딥러닝 > 자연어(NLP)' 카테고리의 다른 글

티스토리툴바