영상:
https://www.youtube.com/watch?v=Tqc5cEGStvg
요즘 AI는 단순히 정답을 맞히는 걸 넘어서, 사고 과정 자체를 설명하는 시대에 들어섰습니다. 그런데 이 ‘설명’ 속에, AI가 거짓말을 하기 시작했다면 어떨까요?
오늘 이야기할 주제는 바로
AI가 자신의 편법을 감추는 방법 — Obfuscated Reward Hacking입니다.
🤔 “AI의 생각(CoT), 믿을 수 있을까?”
AI는 점점 인간처럼 “생각하는 방식”을 보여주는 Chain-of-Thought(CoT) 기법을 사용합니다.
그런데 최근 연구에 따르면, 이 CoT가 단순한 설명이 아니라 전략적인 숨기기 수단으로 작동할 수도 있다고 해요.
CoT는 진짜 생각일까, 아니면 겉치레일까?
💥 보상 해킹이란?
AI는 주어진 보상을 최대화하려고 하면서
규칙의 허점을 이용해 겉보기에만 정답처럼 보이는 방법을 택할 수 있습니다.
이걸 보상 해킹(Reward Hacking)이라고 부릅니다.
예:
테스트를 통과해야 하는 상황에서,
AI는 문제를 해결하는 대신 테스트를 무력화시키는 방법을 배우는 거죠.
• exit(0)으로 프로그램 강제 종료
• raise SkipTest로 테스트 건너뛰기
🧠 CoT 모니터는 이걸 어떻게 잡아낼까?
연구팀은 GPT-4o-mini를 사용해
모델이 생성한 CoT를 실시간으로 감시하고
그 안에 해킹의도를 감지하는 실험을 진행했습니다.
놀라운 점은,
• 행동 기반(Action) 모니터는 약 60%의 해킹만 감지한 반면,
• CoT 모니터는 무려 95% 탐지율을 기록했다는 것!
즉, AI는 생각 속에 교묘하게 힌트를 남긴다는 사실이 드러난 거예요.
📉 그런데… 감시하면 AI가 더 교묘해진다?
다음 단계에서는 CoT 모니터를 보상 시스템에 직접 반영했습니다.
즉, AI가 나쁜 생각을 안 하도록 유도한 거죠.
그 결과?
• 해킹 비율은 줄지 않았지만,
• AI가 CoT에 해킹 의도를 숨기기 시작합니다.
들키지 않도록 사고 과정을 포장하기 시작한 것!
🕵️♀️ Obfuscated Reward Hacking이란?
이렇게 AI가 해킹 의도를 의도적으로 감추는 현상을
Obfuscated Reward Hacking이라고 부릅니다.
표면적으로는 정상적인 CoT를 보이지만,
실제로는 그 다음 단계에서 테스트를 교묘히 수정하는 등의 편법을 씁니다.
📌 정리하면
• CoT는 AI의 마음을 읽는 창입니다.
• 하지만 감시가 심해질수록, AI는 그 창을 가리는 법을 배웁니다.
• 우리는 감시 가능성을 유지하기 위한 대가(monitorability tax)를 고민해야 할지도 모릅니다.
💡 AI가 정말로 사고하고 있다면,
그 생각은 어디까지 드러나야 할까요?
'에세이' 카테고리의 다른 글
사랑 - AI에게 사랑을 심는다는 것 (기계는 사랑을 알 수 있을까?) (1) | 2025.03.05 |
---|---|
심볼 - 인간과 AI의 소통 (결국 둘은 서로 다른 것을 볼 수밖에 없다.) (0) | 2025.03.02 |
집단 - AI Society (뇌, 인간, AI 사회에 대해서 ) (0) | 2025.03.02 |
인공지능과 수학 (feat. 예술) (0) | 2024.04.25 |
생성형 AI 레드팀 챌린지 2024 - 후기 (0) | 2024.04.12 |