#인공지능 #chainofthought #보상해킹 #ai윤리 #ai설명가능성 #ai보안 #사이언스바이브 #cot #obfuscation 썸네일형 리스트형 AI가 생각을 숨기기 시작했다면? — Obfuscated Reward Hacking의 모든 것 영상:https://www.youtube.com/watch?v=Tqc5cEGStvg 요즘 AI는 단순히 정답을 맞히는 걸 넘어서, 사고 과정 자체를 설명하는 시대에 들어섰습니다. 그런데 이 ‘설명’ 속에, AI가 거짓말을 하기 시작했다면 어떨까요? 오늘 이야기할 주제는 바로AI가 자신의 편법을 감추는 방법 — Obfuscated Reward Hacking입니다. 🤔 “AI의 생각(CoT), 믿을 수 있을까?” AI는 점점 인간처럼 “생각하는 방식”을 보여주는 Chain-of-Thought(CoT) 기법을 사용합니다.그런데 최근 연구에 따르면, 이 CoT가 단순한 설명이 아니라 전략적인 숨기기 수단으로 작동할 수도 있다고 해요. CoT는 진짜 생각일까, 아니면 겉치레일까? 💥 보상 해킹이란? AI는 .. 더보기 이전 1 다음