14. 한글더빙 ChatGPT는 지능이 아닙니다 강화학습

이 영상은 “말을 잘 이어 붙이는 능력”과 “세상을 이해하는 지능”이 같은 것인지 차분하게 갈라 봅니다. 리처드 서튼은 LLM이 사람의 다음 말을 예측할 뿐, 물리적 세계에서 실제로 무슨 일이 일어날지는 배우지 못한다고 말하고, 사이언스 아담은 그 차이가 왜 중요한지 일상적인 비유로 풀어 줍니다.

flowchart LR
A[LLM은 정말 지능인가] --> B[말 모방과 세계 이해를 구분]
B --> C[강화학습과 목표·예측·수정 능력 강조]
C --> D[미래 AI를 어떤 원칙으로 대할지 질문]

핵심 요약

영상은 인간이 20시간 안팎에 운전을 익히는 것과, AI가 수백만 번의 시행착오와 방대한 데이터를 써도 어려워하는 장면을 대비시키며 시작한다
리처드 서튼은 강화학습이야말로 세계를 이해하는 과정이고, LLM은 세상을 배우는 대신 사람의 말을 흉내 내는 시스템이라고 선을 긋는다
주디아 펄의 3단계 구분을 빌려, 현재 AI는 관찰은 잘하지만 개입과 특히 가정법적 추론은 약하다는 문제의식도 함께 제시된다
서튼은 진정한 월드 모델이라면 현실에서 무슨 일이 벌어질지 예측해야 하는데, LLM은 사람이 다음에 무슨 말을 할지만 예측한다고 말한다
후반부 대화는 기술 성능을 넘어, 미래의 더 강한 지능에게 어떤 가치와 태도를 전할 것인지로 넘어간다

왜 지금 중요한가

우리는 이미 ChatGPT 같은 모델을 매일 쓰고 있어서, 말이 자연스럽다는 이유만으로 “이 정도면 이해하는 거 아닌가”라고 느끼기 쉽습니다. 그런데 이 영상은 그 자연스러움이 곧 세계 이해를 뜻하지는 않는다고 짚습니다. AI를 어디에 믿고, 어디에서 한계를 봐야 하는지 다시 생각하게 만드는 포인트예요.

주요 내용

20시간의 인간과 수백만 번의 AI를 나란히 놓고 본다

영상의 출발점은 아주 직관적입니다. 사람은 운전면허를 따기 위해 필기, 기능, 도로주행을 거치더라도 짧게는 20시간 안팎이면 기본을 익힙니다. 이미 몸으로 물리 법칙을 익힌 상태에서 핸들과 페달 조작만 덧붙이면 되기 때문이라는 설명이죠.

반면 AI는 운전을 배우려면 수백만 번의 시행착오와 방대한 데이터가 필요하다고 말합니다. 그래도 여전히 부족하다고요. 이 대비를 통해 영상은 바로 핵심 질문으로 들어갑니다. 왜 인간은 이렇게 빨리 배우고, AI는 그렇게 많은 데이터를 먹고도 세상을 잘 모르는가.

”말을 흉내 내는 것”과 “세계를 배우는 것”은 다르다

사이언스 아담은 얀 르쿤과 주디아 펄의 문제 제기를 먼저 깔아 줍니다. 르쿤은 현재 AI가 세계를 이해하는 게 아니라 인간의 말을 따라 할 뿐이라고 비판했고, 펄은 인과 모델 없이는 관찰 단계를 벗어나기 어렵다고 설명합니다.

이 흐름 위에서 리처드 서튼의 답은 더 단호하게 나옵니다. 강화학습은 세계를 이해하는 과정이고, LLM은 사람을 흉내 내는 과정이라는 겁니다. 특히 서튼은 “사람들이 한 말을 그럴싸하게 흉내내는 건 결코 월드 모델을 구축하는 과정이 아니”라고 말합니다.

여기서 중요한 차이는 예측 대상입니다. 서튼이 말하는 진짜 월드 모델은 세상에서 무슨 일이 벌어질지를 예측해야 합니다. 하지만 LLM은 사람이 다음에 무슨 말을 할지를 예측할 뿐이라는 거죠. 이 차이를 놓치면, 말이 자연스럽다는 이유만으로 지능을 과대평가하게 됩니다.

현재 AI가 잘하는 것과 못하는 것을 펄의 사다리로 나눠 본다

초반부에는 주디아 펄의 지식의 사다리도 소개됩니다. 1단계는 관찰, 2단계는 개입, 3단계는 가정법입니다. 예를 들어 “트럼프가 대통령이 되면 전쟁이 난다”는 관찰이고, “탄핵되면 전쟁이 안 날까”는 개입입니다. 그 위의 가정법은 실제로 일어나지 않은 상황을 상상하고 추론하는 능력입니다.

영상은 현재 AI가 특히 이 세 번째 층위에 약하다고 봅니다. 방대한 데이터를 넣어도 인과 모델이 없으면 관찰을 넘어가기 어렵다는 설명이죠. 그래서 서튼이 말하는 목표, 책임, 자기 수정 능력의 부재도 그냥 철학적 불만이 아니라, 실제 지능의 구조와 연결된 문제처럼 들립니다.

마지막 질문은 기술보다 가치에 가깝다

후반부의 보이는 자막에서는 대화가 조금 다른 층위로 넘어갑니다. 미래에 더 유능하고 수적으로도 많고 더 뛰어난 지능을 가진 후대가 나타난다면, 우리는 그들을 어떻게 대해야 하느냐는 질문이 나옵니다.

여기서 서튼은 인간의 특권 의식을 경계합니다. 우리가 먼저 살았다고 해서 미래 전체를 통제해야 한다는 태도는 오만일 수 있다는 거죠. 동시에 진행자는 부모가 아이에게 가치관을 심어 주듯, AI에게도 해로운 요청을 거절하고 정직을 지키는 태도 같은 기준을 가르칠 수 있지 않겠느냐고 묻습니다.

이 장면이 흥미로운 건, 대화가 단순히 “LLM이 충분히 똑똑한가”를 넘어서 “더 강한 지능이 나타날 때 우리는 어떤 원칙을 남길 것인가”로 이동하기 때문입니다. 성능 논쟁에서 시작했는데, 끝에서는 사회와 도덕의 문제로 닿는 셈이죠.

원문 발화 하이라이트

[00:27] “지금 이 순간 가장 똑똑하다는 AI가 운전을 배우려면 수백만 번의 시행 착오와 방대한 데이터를 쏟아 부어야 합니다.”
[04:23] “저는 강화 학습이야말로 가장 본질적인 AI라고 정의합니다.”
[05:13] “사람들이 한 말을 그럴싸하게 흉내내는 건 결코 월드 모델을 구축하는 과정이 아니죠.”
[05:32] “진정한 월드 모델이라면 세상에 무슨 일이 일어날지 예측해야 합니다.”
[47:56] “미래는 반드시 내 뜻대로 진화해야 한다라고 믿는 태도는 오만입니다.”
[49:19] “결국 우리는 미래와 그 근간이 될 원칙을 설계하는 중입니다.”

바로 실행해 보기

AI가 똑똑해 보일 때마다 한 번만 더 물어보세요. 이 모델이 지금 예측하는 건 세상에서 벌어질 일인지, 아니면 사람이 다음에 할 말인지. 이 질문 하나만으로도 과장된 기대를 많이 걸러낼 수 있습니다
새로운 AI 도구를 볼 때는 “관찰, 개입, 가정법” 세 칸으로 나눠 생각해 보세요. 정보를 요약하는 수준인지, 행동 결과를 다루는지, 일어나지 않은 경우까지 추론하는지 구분해 보면 한계가 훨씬 선명해집니다
일상에서 AI를 쓸 때도 성능만 보지 말고 원칙을 같이 적어 두면 좋습니다. 예를 들어 해로운 요청은 거절하게 할 것, 모르면 모른다고 답하게 할 것처럼 내가 중요하게 보는 기준을 먼저 세워 보세요

참고

영상: https://www.youtube.com/watch?v=DSL6jSzkpIU

영상 메타

채널: Science ADAM
제목: [한글더빙] “ChatGPT는 지능이 아닙니다” 강화학습 창시자·튜링상 수상자 리처드 서튼
게시 시각(원문): 20260405
영상: https://www.youtube.com/watch?v=DSL6jSzkpIU
썸네일: https://i.ytimg.com/vi/DSL6jSzkpIU/maxresdefault.jpg

수집 품질

자막 세그먼트: 1309개
자막 문자수: 23498자
챕터 추출: 9개
콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.

일하는 ai

탐색기