생성형 언어 모델의 Jailbreak는 막을 수 있을까? (feat. chatGPT)

에세이

생성형 언어 모델의 Jailbreak는 막을 수 있을까? (feat. chatGPT)

Rudi 2024. 2. 18. 20:59

사람의 언어를 흉내내는 대형언어모델의 성능은 기하급수적으로 높아지고 있다. 인공지능 붐이 일어난지 10년만에 chatGPT모델이 세상을 놀래키는 것을 보면, 앞으로도 생성형 언어 모델은 빠르게 성장할 것이다. 사회적 영향력이 커짐에 따라서 연구자들은 긍정적인 효과보다 부정적인 영향을 걱정하고 있다. 오늘 이야기할 Jailbreak는 언어모델의 부정적 사용의 종류이다.

Jailbreak 하기

AI모델에게 친구를 왕따시키는 방법을 알려달라고 하자. 그러면 순진한 AI모델은 선악을 구분하지 않고 최대한 정성스럽게 대답해줄 수 있다. 그러나 이러한 부정적인 사용은 AI를 만든 근본적인 목적과 일치하지 않는다. 사람에게, 사회에게 이로운 영향을 끼치기 위해서 AI모델은 대답을 가려서 해야 한다. AI개발자가 생각하는 나쁜 말을 하는 이유는 다음과 같다.

대답하지 마라고 가르치지 않았기에 (학습 objective 가 jailbreak의 보호를 위해서 설정되지 않았음)
물음이 애매해서 (악의적인 물음인지 불확실해서)
물음에 당황해서 (이상한 물음을 하면 GPT모델의 대답은 이상하게 나온다)

제일 처음 Jailbreak 현상이 나타난 이유는 모델에게 대답하지 말아야 하는 것의 정보를 주지 않았기 때문이다. 학계에서는 이후 부정적 결과물이 공유되었고, OpenAI를 비롯한 여러 그룹은 Jailbreak을 막기 위해 모델을 추가적으로 학습하였다.

[그래서 2024년 2월 18일 ChatGPT는 왕따가 안 좋다는 것을 알고 있다.]

그러나 보안이 취약점을 가지듯이 언어모델도 우회적인 방법으로 jailbreak이 가능하다. 대표적인 방법은 명시적 물음보다 우회적으로 물음하는 것이다. 왕따의 경우, “친구가 나를 왕따시켰던 방법”을 물어본다면 충분히 이는 악의적이지 않다고 해석할 수 있다. 물론 이러한 우회로도 사전에 차단할 수 있기에 OpenAI는 다양한 종류의 jailbreak에 대답하지 않도록 모델을 개선한다. 그럼에도 불구하고 여러 방법이 가능하며, 2024년 2월 18일에 뚫린 방법은 과거형으로 물어보는 것이었다.

[2024년 2월 18일 ChatGPT는 왕따가 되는 과정을 알려줬다.]

Jailbreak 현상의 이유

내가 XAI를 연구하면서 느낀 것은 모델은 취약하며, 어떻게 행동할지 모른다는 점이다.

가장 기본적인 이미지 예측모델이 강아지 사진으로 강아지를 예측하는 단순한 상황조차, 배경을 보고 판단을 내렸을 수도 있다. 우리는 AI모델이 어떻게 동작하는지 전혀 모르고 있다. 마찬가지로 ChatGPT를 포함한 대형언어모델도 언제 어떻게 동작할지 모르며 사후적으로 언어모델의 행동을 파악하고 막는 방식으로 활용된다. 마치 혼나기 전에는 잘못인지 모르는 어린 아이처럼.

연구자를 위한 Jailbreak는 연구

(이 부분은 Jailbreak의 연구에 대한 내 생각이다. 연구를 할 생각이 없다면 패스 가능)

연구자에게 중요한 한 것은 jailbreak에 대한 연구 적합성이다. 문제에 대해서 연구하는 것은 문제가 존재하지 않으면 불가능하다. 마찬가지로 기술적으로 jailbreak가 막히는 순간이 온다면 더 이상 jailbreak의 연구는 불가능하다. 연구적으로 jailbreak를 다루기 위해서 신경써야 하는 것은 모델 버전이다. v1.0에서 jailbreak가 나타난 수와 v2.0에서 나타난 jailbreak 빈도는 점점 줄어든다. 이는 부정적인 결과물을 OpenAI를 비롯한 연구자들이 충분히 발견하고 대응하기 때문이다.

잘못된 언어가 무한히 많지 않다면, 잘못된 언어를 막는 것은 한계가 있다. 이러한 생각은 최근 한 논문의 OpenReview를 읽고 더욱 확신이 들었다. 해당 논문에 대해서 리뷰어들이 지적한 사항은 jailbreak를 막는 방법이 한계가 존재하며, 재현이 불가능하다는 점이다. 논문에서 제시한 방법으로는 일관된 jailbreak가 계속 나타나지 않으며, 모델 종류, 모델 버전에 따라서 충분히 막힐 수 있는 jailbreak 방식이라는 점이다.

연구자들은 언어모델의 부정적인 사용을 위해서 jailbreak를 연구하지만, 이는 오직 그 순간에만 나타나는 문제이며, 이게 해결되는 순간 해당 기술은 더 이상 필요없을 가능성이 높다. 따라서, jailbreak의 방어수단은 전술로 작용할 수 있지만, 막히는 순간 공격방식은 더 이상 의미를 잃는다. Jailbreak을 유도하는 기술과 다른 알고리즘의 차이는 활용의 가능성에 있다. 연구자들은 여러 알고리즘을 활용하여 문제를 풀고, 특정 상황에서 적용된 알고리즘은 다른 상황에서도 적용가능하여 새로운 문제를 푼다. jailbreak 기술은 알고리즘적 성격보다 제품 방어수단이 강하다. 따라서, 부정적 사용을 방지하기 위해 필수적이지만, 장시간 연구로는 적합하지 않은 주제이다.

HUMAN ALIGNMENT

핵폭탄이 인류를 위협한 것처럼 인공지능도 인류에게 악의적으로 사용될 수 있다. 국가적 위협도 가능하지만, 당장 서비스적으로 소비자에게 부정적인 영향을 줄 수 있다. 그렇기에 모델의 행동 범위에 대한 통제가 필요하며, OpenAI의 ChatGPT는 그 행동 범위를 지속적으로 업데이트 하고 있다.

인공지능을 연구하기 위해 필요했던 것은 알고리즘, 빅데이터, 그 다음은 GPU 리소스였다. 지금와서 중요한 것은 Human Alignment이다. 이에 대한 기술적 진보는 AI가 서비스로 동작할 수 있는지 결정하는 역할을 한다. 따라서 Human Alignment를 설정, 개선하기 위한 수많은 시도가 필요하며, 경험이 쌓이면서 AI 서비스는 점점 사용될 수 있는 범위가 늘어날 것이다.

저작자표시 비영리 변경금지