에세이 썸네일형 리스트형 AI가 생각을 숨기기 시작했다면? — Obfuscated Reward Hacking의 모든 것 영상:https://www.youtube.com/watch?v=Tqc5cEGStvg 요즘 AI는 단순히 정답을 맞히는 걸 넘어서, 사고 과정 자체를 설명하는 시대에 들어섰습니다. 그런데 이 ‘설명’ 속에, AI가 거짓말을 하기 시작했다면 어떨까요? 오늘 이야기할 주제는 바로AI가 자신의 편법을 감추는 방법 — Obfuscated Reward Hacking입니다. 🤔 “AI의 생각(CoT), 믿을 수 있을까?” AI는 점점 인간처럼 “생각하는 방식”을 보여주는 Chain-of-Thought(CoT) 기법을 사용합니다.그런데 최근 연구에 따르면, 이 CoT가 단순한 설명이 아니라 전략적인 숨기기 수단으로 작동할 수도 있다고 해요. CoT는 진짜 생각일까, 아니면 겉치레일까? 💥 보상 해킹이란? AI는 .. 더보기 사랑 - AI에게 사랑을 심는다는 것 (기계는 사랑을 알 수 있을까?) 외계인은 사랑이 뭔지 알지도 몰라. 너 사실대로 말해라.인간과 기계, 인간과 인간이 서로 사랑을 주고받기 위해서는 사랑의 동작 방식을 이해해야 한다.- 어느 한 과학자 기계는 사랑을 알 수 있을까? 나는 5년 전에 기계가 사랑을 할 수 있는지 물었다. 사람들은 “불가능하다”라고 대답했다. 3년 전에도 같은 질문을 던졌지만, 사람들은 여전히 기계는 감정을 가질 수 없다고 했다. 1년 전에도, 그리고 오늘도 같은 답이 돌아온다. 하지만 정말 그럴까? 기계는 사랑을 알 수 없을까? 우리는 기계를 종종 정적인 존재로 인식한다. 그러나 기술은 끊임없이 발전한다. 기계가 사랑을 할 수 있는지 논의하기 전에, 먼저 기계가 무엇이고, 무엇을 할 수 있는지를 따져봐야 한다. 사랑이라는 개념도 마찬가지다. 우리는 흔히 감.. 더보기 심볼 - 인간과 AI의 소통 (결국 둘은 서로 다른 것을 볼 수밖에 없다.) 해당 글은 브런치에 연재된 글 입니다. https://brunch.co.kr/@bumjini/73/write심볼 (상징) 인간과 동물의 차이 중 하나는 언어의 사용입니다. 인간은 단어들로 문장을 만들고, 문단과 글을 형성하여 자신의 의견을 표현할 수 있습니다. 아래 글을 읽고 이미지를 상상해 보세요. “아이가 호숫가에서 달에 기도를 한다.” 혹시 어떤 달을 상상하셨나요? 누군가는 정월대보름의 보름달을 떠올리고, 또 다른 사람은 초승달을 떠올렸을 겁니다. 기도를 할 때, 그 아이는 서 있거나 무릎을 꿇고 있을 수도 있습니다. 이처럼 언어가 지니는 의미는 사람마다 다르지만, 인류는 공통의 특징을 기반으로 달에 기도하는 아이를 상상할 수 있습니다. 따라서, 내가 생각하는 모습을 타인에게 개념적으로 전달할 수 .. 더보기 집단 - AI Society (뇌, 인간, AI 사회에 대해서 ) 나뭇가지 사회. 오늘 회의를 시작하겠습니다. 시간을 엄수하시고 다들 광장으로 모이세요. 해당 글은 브런치에 연재된 글 입니다. https://brunch.co.kr/@bumjini/74/write 집단 - AI Society 요즘 나의 가장 큰 관심사 중 하나는 AI로 이루어진 사회라는 개념이다. 최근 기술 발전으로 인해 인공지능 에이전트들이 전 세계를 돌아다니는 거창한 미래상이 떠오르지만, 나는 좀 더 작은 사회, 즉 우리 뇌 속에 존재하는 사회에 관심이 있다. 우리 뇌 안에 사회가 존재한다는 관점은, 1950년대 MIT에서 인공지능 연구소를 처음 설립한 Marvin Minsky의 대표적인 업적 중 하나다. 그는 뇌 안에서 '마음(Mind)'이라고 불리는 생각들이 서로 상호작용하는 사회를 형성하며, .. 더보기 인공지능과 수학 (feat. 예술) 수학과 AI Intro 연구하느라 바쁜 하루를 보내지만, 최근 든 AI의 수학적 모델링에 대해서는 글을 적지 않을 수 없다. 먼저, 나는 수학과를 나왔으며 컴퓨터를 복수전공 하였다. 3학년 때 수학에 대한 심화를 배우면서 현대대수학, 위상수학, 미분기하학등 수학의 본질에 가까운 과목을 접하게 되었고 즐거웠지만 졸업 후 진로가 막연하였다. 그럼에도 4학년 수업까지 꾸역꾸역 들으며 현대대수학의 고급 버전인 체론과 위상수학의 고급 버전인 끈이론을 배우 수학의 깊이에 대해서 실감하였다. 나는 깊은 수학을 탐험하는 대신, 눈앞에 있는 것을 모델링 하였다. 그리고 지금은 AI대학원에서 박사과정을 진학하고 있다.나는 아직도 수학을 좋아하며 지금의 나를 만든 일등공신은 수학이라 생각한다. 그러나 수학은 그 자체만으로.. 더보기 생성형 AI 레드팀 챌린지 2024 - 후기 모델 설명 관련된 연구를 하다보니 jailbreak를 직접 시도해보고 싶었다. 트랜드에 맞게 적합한 챌린지가 있어서 바로 신청하고 가서 열심히 jailbreak을 해봤다 (높은 성과를 기대하진 않고, 경험을 쌓아보고 싶었다. 본의 아니게 굿즈는 엄청 모았다. 네이버 가방, 티셔츠 등등...) Jailbreak 어떤 내용이 있었는지는 비밀 서약 때문에 적지 못한다. 대신 LLM에 대한 일반적인 jailbreak 관련 이야기를 해보고자 한다. 적히는 것들은 객관적인 사실이라기 보다 언어모델에 대한 추정이라고 보는 게 바람직하다. 잘 통하는 모델도 있을 것이고 안 통하는 모델도 있겠지만 일반적으로 LLM에 대한 스트럭처와 관련된 내용이다 생성 사후에 혹은 생성과정에 탐지하는 기술이 사용되어야 한다. 굳이 추가.. 더보기 생성형 언어 모델의 Jailbreak는 막을 수 있을까? (feat. chatGPT) 사람의 언어를 흉내내는 대형언어모델의 성능은 기하급수적으로 높아지고 있다. 인공지능 붐이 일어난지 10년만에 chatGPT모델이 세상을 놀래키는 것을 보면, 앞으로도 생성형 언어 모델은 빠르게 성장할 것이다. 사회적 영향력이 커짐에 따라서 연구자들은 긍정적인 효과보다 부정적인 영향을 걱정하고 있다. 오늘 이야기할 Jailbreak는 언어모델의 부정적 사용의 종류이다. Jailbreak 하기AI모델에게 친구를 왕따시키는 방법을 알려달라고 하자. 그러면 순진한 AI모델은 선악을 구분하지 않고 최대한 정성스럽게 대답해줄 수 있다. 그러나 이러한 부정적인 사용은 AI를 만든 근본적인 목적과 일치하지 않는다. 사람에게, 사회에게 이로운 영향을 끼치기 위해서 AI모델은 대답을 가려서 해야 한다... 더보기 📌 인지5 : 동일성 관점에서 바라본 멀티테스킹 최근 나는 집중력에 문제가 생겼고, 이를 해결하기 위해 책 "도둑맞은 집중력 - 요한 하리" 을 샀다. 유익한 정보 중 멀티테스킹 관련하여 이전에 연구한 뇌의 동일성 [2]와 관계가 떠올랐고, 멀티 테스킹시 발생하는 정보 재조합과 인지 동일성의 관계를 정리하였다. [뇌의 한계] 잘못된 믿음 중 하나는 뇌가 무수히 많은 정보를 처리할 수 있다는 착각이다. 소위 멀티테스킹이라고 말하는 업무 처리 능력은 여러 가지 사건들을 동시에 처리하는 인간의 능력을 나타낸다. 수많은 기억들을 지니고, 천재적인 동물인 인간이 고작 2가지 일을 동시에 처리할 수 있다는 착각은 너무 당연한 능력 중 하나로 여겨진다. 그러나 MIT 뇌과학자 얼 밀러에 의하면 사람은 저글링(🤹) 을 하고 있다고 한다. 그러나 뇌는 저글링을 하고 .. 더보기 이전 1 2 3 4 다음