본문 바로가기

에세이

육군 M&S 국제학술대회를 다녀온 대학원생 후기 오랜만에 학회에 다녀왔다. 조금 특별한 국내 학회로, 육군 M&S학회라는 곳이다. AI 연구와 육군 M&S 학회의 관계성은 크지 않으며, 이곳에 참석한 이유는 연구실과 관련되어 있다. 내가 박사과정을 하는 연구실은 인공지능 모델 설명을 목적으로 한다. 모델을 설명하는 것은 신뢰성과 직결된 문제이므로, 외부에서 어떤 수요가 있는지 알기 위해서 국방 관련 학회에 참석하였다. 육군 M&S 학회는 Army Mobile and Simulation 에 대한 학술적인 연구를 공유하는 학회로, 참석하시는 분들은 소령 이상 군관계자나 국방대학교, 국방과학연구소 분들이 많았다. 학회에 참석하면, 제복을 입고 대전 컨벤션 센터를 돌아다니는 외국인의 모습을 볼 수 있다. 꽤나 인상적이다. 학회에 참석의 원초적인 이유가 지도 .. 더보기
연구 돌 올려놓기 너무 무겁다. 시지프스는 무거운 돌을 산정산에 올려놓는 형벌을 받고 있다. 지금도 무거운 돌을 산정상에 올리기 위해 굴리고 있는진 모르겠지만. 나도 연구를 하면서 마치 돌을 올리는 것처럼 새로운 내용들을 끊임없이 배워야 한다. 연구는 다시 산 아래로 돌이 굴러 떨어지지 않지만, 수백, 수천 논문들이 존재하기에 새로운 연구들을 산 정상으로 올려놔야 한다. 물론 수백번 정도 돌을 올리면 근력이 생겨서 다음 돌은 조금 쉽게 올릴 수 있게 된다. 그러나, 어찌 되었던 평지에서 시작해서 산 정상에 돌을 올려야 한다. 연구자의 삶은 돌을 올려놓는 것처럼 새로운 것들을 계속 배우는 과정인 것이다. 돌 중에는 돌멩이처럼 가벼운 친구들도 있는 반면, 사막처럼 돌을 굴리기 좋지 않은 곳에 뜨거운 돌들이 존재한다. 뜨거운 .. 더보기
Transformer 해석과 Attention Heads 1. 서론 최근 딥러닝은 트랜스포머를 바탕으로 더욱 빠르게 성장하고 있다. 트랜스포머에는 어텐션 (Multi-Head Attention, MHA) 과 MLP 라는 두 개의 주요 모듈이 존재하며, 이들의 활성화된 값을 이해하는 것은 모델의 의사결정에 대한 해석을 제공해준다. MHA 의 역할은 입력 토큰들에 대한 정보교환, MLP 의 역할은 메모리로부터 정보생성의 관점이 알려져 있다 [2,3,4,5]. 트랜스포머의 내부에 대해서는 아직 의견이 분분하지만, 적어도 두 가지 모듈 중에서 MHA 대한 해석은 상당히 많은 연구가 진행되었다 [6,7,8,9]. 이 글에서는 최근 발달한 MHA 에 대한 연구들을 기반으로, 트랜스포머 MHA 에 대하여 풀린 문제를 정의하고 풀리지 않은 추가적인 문제를 의논한다. MHA .. 더보기
블랙 박스 모델의 설명성 연구 방향 1. 소개 지난 수 년간 딥러닝은 지속적으로 발전해왔다. 많은 연구자들이 모델의 성능을 올리기 위해서 네트워크 구조, 데이터, 학습 알고리즘들을 개발했으며, 성능이 오르면서 모델의 의사결정을 해석하는 기술들, 일명 설명가능인공지능 또한 발전하였다. 그러나 블랙박스 모델을 설명하는 것은 여전히 어려운 문제로 남아있으며, 설명성 기술 자체가 지니는 의미를 파악하고 설명성의 편향 (explanation bias)을 이해하는 것은 쉽지 않다. 블랙 박스 모델을 설명하기 위해서 기존 연구자들이 어떠한 문제를 정의하였고, 어떻게 풀었는지, 그리고 여전히 풀리지 않은 문제는 무엇인지 회고하여 블랙박스모델의 설명성 연구방향성을 제시하고자 한다. 또한 기존 설명 방법들에 대하여 문제 인식과 풀린 문제들에 대하여 논하며,.. 더보기
GPT4 는 더 이상 연구가 아닌 기술보안이다. GPT3는 175B 개의 파라미터를 가진 혁신적 모델이었고, 이후 두 형태의 GPT 모델이 발전하였다. 사람의 말처럼 자연스러운 형태의 InstructGPT 그리고 챗봇 형태로 엄청난 사용자를 기록하는 ChatGPT. InstructGPT (논문)가 사람처럼 말하기 위해서 어떠한 방식을 사용하였는지 기술적으로 서술되어, 이후 많은 사람들이 Human Feedback을 이용해서 GPT와 같은 디코더들을 학습시킬 수 있었다. 여기까지는 아직 연구자들과 내용을 공유하는 형태이다. 마찬가지로 ChatGPT는 프로그래밍 코드에 대해서 미리 학습되고 InstructGPT와 비슷한 형태로 재학습하였다는 것이 알려져 있는데, GPT4부터는 더 이상 그 어떠한 내부적인 비밀을 공개하지 않는다. 이러한 Closeness를.. 더보기
연구를 너무 많이 한듯해서 일탈이 목표 나는 대학원생이다. 내 하루 일과는 책상에 앉아서 코딩을 하거나 논문을 읽는 것으로, 논문을 읽다가 아이디어가 생기면 구체화를 통해 연구 계획을 세워본다. 그리고 기존 비슷한 연구가 있는지 찾아본다. 오후가 되면 전에 돌려놨던 실험 결과를 확인해보고 진행사항을 확인한다. 그리고 6시 정도가 되면 오늘 별로 한게 없다는 생각을 하며 퇴근 한다. 이러한 일상을 2년 넘게 지속하니 점점 생활이 지루해지더라. 매일 새로운 것을 배우고 실력이 커지는 것과는 별개로 연구에 대한 흥미가 줄어드는 게 느껴진다. 그래서 나에게 필요한 게 뭘지 이것저것 생각해보다가, 재미를 더하기 위해서 일탈을 결심했다. 반복되는 말은 강아지를 불안하게 한다 라고 티비에서 본거 같은데, 마찬가지로 반복적인 삶의 태도는 나를 불안하게 만든.. 더보기
대학원생의 NeurIPS 2022 컨퍼런스 후기 대학원생의 NeurIPS 2022 후기 [연구에 대한 시야가 넓어지다] 1. From Korea to New Orleans 연구원으로 가장 값진 경험은 탑티어 학회에 가는 것이다. 2년 정도 연구원으로 지내본 입장에서 학회에 가면 무엇을 배울 수 있는지, 좋은 점은 무엇인지, 학회에서는 무엇을 하는지 리뷰해보자. 매일 연구실에서 논문을 읽고 쓰고, 실험을 진행하며 한편으로는 단편적이고 단순하게 생활하는 대학원생에게 학회라는 곳은 정말 큰 동기부여가 된다는 것을 실제로 학회이고 그들의 연구가 단순히 논문을 내는데서 그치는 것이 아니라 더 많은 사람들과 교류하고 공통의 문제를 해결하는 과정이라는 생각이 든다. 먼저, NeurIPS 2022에는 얼핏 듣기로 논문 수는 2600개 / 학회 등록자 수는 만 명 정.. 더보기
[연구일지] 존경하던 Müller 교수님을 만나다. 유명인을 만난다는 것은 꽤나 쉽지 않은 일이며 평소 인터넷에서 이름과 얼굴을 봤던 분을 실제로 만나는 일은 생각했던 것 이상으로 신기한 일이다. 마치 빌게이츠나 워렌버핏과 대화할 수 있는 기회가 생기는 것과 비슷하다. 나에게는 Klaus Robert Müller 교수님의 만남이 그런 것이었다. 한 번 만나보고 싶고, 이야기해보고 싶다는 생각. 그런데 상상이 현실이 되었다. Müller 교수님은 그는 XAI 에서 가장 유명한 사람이다. 무려 Citation 이 11만개나 되는 연구에 있어서 우상이신 분이다. 보통 한 명의 연구자가 일년에 많으면 10편 이내로 논문을 쓰니, 11만 인용되었다는 것은 그만큼 그의 연구가 수많은 연구자들의 밑바탕으로 사용되었다는 것이다. 개인적으로 나는 연구를 하면서 특히나 마.. 더보기