GPT4 는 더 이상 연구가 아닌 기술보안이다.
GPT3는 175B 개의 파라미터를 가진 혁신적 모델이었고, 이후 두 형태의 GPT 모델이 발전하였다. 사람의 말처럼 자연스러운 형태의 InstructGPT 그리고 챗봇 형태로 엄청난 사용자를 기록하는 ChatGPT.
InstructGPT (논문)가 사람처럼 말하기 위해서 어떠한 방식을 사용하였는지 기술적으로 서술되어, 이후 많은 사람들이 Human Feedback을 이용해서 GPT와 같은 디코더들을 학습시킬 수 있었다. 여기까지는 아직 연구자들과 내용을 공유하는 형태이다. 마찬가지로 ChatGPT는 프로그래밍 코드에 대해서 미리 학습되고 InstructGPT와 비슷한 형태로 재학습하였다는 것이 알려져 있는데,
GPT4부터는 더 이상 그 어떠한 내부적인 비밀을 공개하지 않는다.
이러한 Closeness를 보고 가장 먼저 떠오르는 것은 반도체 공정이다. 산업은 기술이 핵심이고, 기술 그 자체가 자산이 된다.
그래서 삼성과 같은 대기업들은 기업내 정보가 세어나가는 것을 지극히 꺼리는 것이다. 해당 기술을 다른 기업이 보고 따라한다면, 그동안 연구 개발을 위해서 투자한 것이 다른 기업을 위한 게 되기 때문에 당연하다. 그런데 이러한 기술보안이 GPT에서도 일어나는 것 같다. 더 이상 연구자들은 어떻게 모델을 학습시키는지, 어떠한 데이터가 필요한지와 같은 노하우들을 연구자들과 공유하지 않는다.
그래서 이제부터는 논문(Paper)이 아닌 Technical Report 라고 하나보다.
GPT-4 Technical Report!
이제 연구적으로 GPT4는 크게 의미없다.
리포트를 내리다보면 다음과 같은 문장이 나온다.
this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.
좀더 자세한 내용은 다음과 같다.
결국 더 이상 GPT4에 대해서 아무것도 알려주지 않겠다는 말이다. 리포트에서 적힌 바로는 두 개의 버전이 있고 단어 수는 다음과 같다.
- gpt-4-8K : 8,192 tokens
- gpt-4-32K : 32,768 tokens
토큰 수를 알려준 것에 만족하진 못하겠지만... 그 이상 알려주는 게 없다. (혹시 있으면 댓글에 남겨주세요)
어쨌든 GPT4는 성능이 더 좋다.
리포트에서는 대신 결과적으로 시험점수가 얼마나 높은지 보여준다. 해당 퍼센트는 100% 가 1등이고, 0%가 꼴등이다. 상대적으로 GPT4 의 시험성적을 보면, 대부분의 시험에서 성능 향상이 된 것을 확인할 수 있다. 모델 사이즈가 커지고 학습을 오래한만큼 기존에 성적이 낮은 시험도 굉장히 높아진 것을 볼 수 있다. 심지어 두 개는 상위 10%를 넘는 시험 결과를 보여준다.
역시나 NLP 의 답은 모델사이즈와 데이터량 증가이다.
정말 의심의 여지가 없다.
어떻게 Large Model을 학습시키는 지 아는 것이 기술이지 싶다.
앞으로 어떻게 되려나..?
작년 쯤에 Naver CLOVA에서 HyperClova를 선보였다. 모델 사이즈를 GPT3만큼 키운 건데, 지금도 모델 사이즈를 더 키우고 있을지 궁금하다. 결국 NLP 모델은 데이터 사이즈와 모델 사이즈를 키울 경우 성능이 향상되는 Scalability 가 성립하기에, 모델 사이즈를 키우는 것은 올바른 방향이다. Microsoft 의 Bing은 이제 GPT4를 기반으로 더 많은 것을 할 수 있을테고, 어떻게 보면 경쟁사인 국내 IT 기업들이 GPT4의 방향성을 따라갈지 궁금하다.
GPT4의 세부내용에 대해서 공개하지 않는 것은 기술적인 보안이슈도 있겠지만, 사실 모델 사이즈를 키우는데 연구자들의 시선이 곱지 않기 때문이다. 단순히 모델과 데이터사이즈를 키우는 것이 언어학적으로 해석도 되지 않으며 일부 기업들만 연구할 수 있기 때문이다. 그러나 성능을 중요시하는 AI 분야에서 모델 사이즈를 키우는 것은 필수적이며 Pathways Language Model (PaLM)와 같은 연구들이 공유되었다. 그러나 이제는 공유적으로 연구하는 수준은 넘어선 것 같다. 사실 알려준다고 해도 논문의 내용을 따라할 순 없다. 왜냐하면 세부적인 디테일이 맞지 않으면 논문의 성능이 나오지 않기에.. GPT4 Technical Report 가 그 선을 제대로 그은 느낌이다. 이제는 논문이 아닌 리포트...
개인적으로 이 소식을 접했을 때 먼저 든 생각은,
이제는 GPT로 돈을 쓸어 담으려는 것 같다는 생각이다.
여담
왜 모델 사이즈가 커지는 지에 대해서 기술적으로 생각해보면 다음과 같다.
Transformer Decoder 는 기본적으로 단어를 인풋으로 받아서 단어를 아웃풋으로 내보낸다. 그리고 디코더 안의 블록들은 Residual Connection 으로 연결되어있다. GPT3의 경우 96개의 블록이 있는데, 입력에 대해서 다음 단어를 예측하는 곳이 96개가 있는 셈이다.
예를 들어서,
나는 오늘 동물원에서 [예측]
[예측] 에 들어갈 단어들은 무수히 많다. [사자, 코끼리, 밥을, 엄마랑, ... ]
하나의 블록은 단어에 대한 분포를 한 가지 만들어준다. 그리고 96개의 블록이 있다면, 96개의 단어 분포를 만들어준다. 특정 블록은 동물에 대해서 확률이 높고, 특정 블록은 음식에 대한 확률이 높을 수 있다. 사실 정답이 없는 언어 생성 문제에 96개 이상의 단어분포가 있다고 해도 쉽게 납득이 간다. 결국 모델 사이즈를 늘리는 것은 경우의 수를 더 많이 고려할 수 있게 되는 것이기에, 바람직하다. 따라서 앞으로도 모델사이즈는 계속해서 커질 것인데, 그 이유는
언어의 경우의 수가 무수히 많기 때문이다.
인간의 신경세포만큼의 모델파라미터가 필요하고,
그 이상의 개수가 있다면, 더욱 좋다.
[1] GPT-4 Technical Report https://arxiv.org/abs/2303.08774