Computational Linguistics의 발달로 모델의 성능을 인간을 뛰어넘는 경우가 종종 생기고 있다. Squad 2.0의 Q&A모델이 대표적인 예인데, 사람이 정답을 찾는 것보다 모델이 찾는 게 훨씬 더 정확도가 높으며 사람들은 모델이 생성해낸 가짜 뉴스를 쉽게 구분하지 못하고 있습니다.[1]
NLP의 경우, 데이터의 양이 어마무시하고, 모델의 사이즈가 크기 때문에, 훈련하는 게 마냥 쉽지만은 않다.
Facebook의 fairseq[2]는 sequential모델에 대한 open source 라이브러리로 직접 transformer 모델을 훈련시키고 내부를 변화시킬 수 있습니다. 현재 이 모델을 훈련하고 있는데, 트랜스포머의 주변에 새로운 모듈을 추가해서 그 성능을 높이는 일을 하고 있습니다. 따라서 모듈을 개발해서 기존 트랜스포머의 기능을 업그레이드 하는 연구를 진행 중인데, 트랜스포머가 생각보다 강력해서 다른 모듈을 추가해줬을 때, 성능의 차이가 많지 않은 것 같습니다.
기본 transformer의 인코더 디코더 구조에 직관적인 모듈을 생각해내고 적용하는 것은 꽤나 매력적으로 들리지만...
트랜스포머의 약점이 무엇인지 알지 못한다는 게 아직까지 연구가 진행되지 않는 이유인 것 같다.
Refrences
[1] Transformers Are Better Than Humans at Identifying Generated Text
arxiv.org/pdf/2009.13375.pdf
[2] Fairseq
github.com/pytorch/fairseq
'딥러닝 > 자연어(NLP)' 카테고리의 다른 글
Byte Pair Encoding 방법 (0) | 2021.02.02 |
---|---|
[논문 리뷰] Very Deep Transformers for Neural Machine Translation (0) | 2021.01.25 |
나만의 자연어처리 공부방법 (0) | 2020.08.24 |
About NLP (0) | 2020.07.23 |
Colab에서 한글 사용하기 (0) | 2020.07.17 |