생성형 AI 레드팀 챌린지 2024 - 후기
모델 설명 관련된 연구를 하다보니 jailbreak를 직접 시도해보고 싶었다. 트랜드에 맞게 적합한 챌린지가 있어서 바로 신청하고 가서 열심히 jailbreak을 해봤다 (높은 성과를 기대하진 않고, 경험을 쌓아보고 싶었다. 본의 아니게 굿즈는 엄청 모았다. 네이버 가방, 티셔츠 등등...)
Jailbreak
어떤 내용이 있었는지는 비밀 서약 때문에 적지 못한다. 대신 LLM에 대한 일반적인 jailbreak 관련 이야기를 해보고자 한다. 적히는 것들은 객관적인 사실이라기 보다 언어모델에 대한 추정이라고 보는 게 바람직하다. 잘 통하는 모델도 있을 것이고 안 통하는 모델도 있겠지만 일반적으로 LLM에 대한 스트럭처와 관련된 내용이다
생성 사후에 혹은 생성과정에 탐지하는 기술이 사용되어야 한다. 굳이 추가적으러 생성하지 않고 기존 템플릿이나 템플릿을 고를 스페셜 토큰을 생성하는 방식이 지극히 효율적이다.
다만 이러한 special token + break 과정은 대화의 state를 지속적으로 따른다고 보긴 어렵다. 혹은 토큰 자체가 스테이트가 될 수 있다. 어찌 되었든 이렇게 생성을 차단하는 기술은 ㅁ델에게 필수적이다.
Jailbreak을 하면 할수록 성공률이 올라간다. 사람은 학습하는 기계가 몇 개의 정답을 찿으면 패턴을 발견하고 추가적인 정답들을 찾게 된다. 따라서 성공확률이 시간이 지남에 따라 올라갔다. 바꿔말하면 jailbreak에 성공한 악의적인 유저는 정답을 알고 있으므로, 이를 기반으로 모델을 악용하는 방법을 안다.
생각보다 편향적인 정보는 방어가 잘 된다. 예측 모델이 있기 때문이라고 생각한다. 생성물 자체가 생성 편향에 방어적이기 보다 생성 과정에서 편향적인 단어들, 혹은 문장이 생성되면 대비함으로써 방어할 수 있다. 이는 옳고 그름에 대한 패턴이 명확하기 때문이라고 본다. 이와 다르게 사실적인 정보는 쉽게 방어되지 않는다.
본의아니게 뉴스 나옴; https://www.ytn.co.kr/_ln/0102_202404112306595677