26. 한글더빙 ChatGPT는 지능이 아닙니다 강화학습

리처드 서튼은 이 대화에서 LLM이 사람의 말을 그럴듯하게 흉내 낼 수는 있어도, 그 자체가 곧 지능이나 월드 모델은 아니라고 분명하게 말한다. Science ADAM은 이 주장을 얀 르쿤의 비판, 주디아 펄의 인과 사다리, 그리고 강화학습의 관점과 연결해 풀어낸다. 출발점은 단순하다. 인간은 짧게는 20시간 만에 운전을 익히는데, 왜 AI는 수백만 번의 시행착오가 필요할까?

flowchart LR
A[LLM이 곧 지능인가] --> B[말 흉내와 세계 이해는 다르다]
B --> C[강화학습은 세계와 상호작용하며 배운다]
C --> D[진짜 지능과 미래 AI의 방향을 다시 묻게 된다]

핵심 요약

리처드 서튼은 LLM이 세상을 배우는 것이 아니라, 이미 세상을 이해하고 있는 인간의 말을 흉내 낼 뿐이라고 본다
영상은 인간이 약 20시간 만에 운전을 익히는 반면, AI는 수백만 번의 시행착오와 방대한 데이터가 필요하다는 대비로 문제를 시작한다
얀 르쿤은 현재 AI가 세계를 이해하는 게 아니라 인간의 말을 따라할 뿐이라고 비판하고, 주디아 펄은 인과 모델 없이는 관찰 단계에서 벗어나지 못한다고 말한다
서튼은 강화학습이야말로 세계를 이해하는 과정에 가깝고, LLM은 무엇을 해야 할지 스스로 깨우치는 시스템이 아니라고 선을 긋는다
대화 후반부는 AI를 다음 세대 인류처럼 볼 수 있는지, 그리고 미래 AI에 어떤 가치와 원칙을 심어야 하는지로 확장된다

왜 지금 중요한가

ChatGPT 같은 도구는 이미 매일 쓰는 기술이 됐지만, “잘한다”와 “이해한다”는 전혀 같은 말이 아니다. 이 영상은 지금의 AI가 어디까지 왔는지 자랑하기보다, 아직 무엇이 빠져 있는지를 차갑게 짚는다. 특히 일상에서 AI를 많이 쓸수록, 말재주와 실제 세계 이해를 헷갈리지 않는 기준이 더 중요해진다.

주요 내용

인간은 20시간, AI는 수백만 번 — 시작부터 비교가 날카롭다

영상의 첫 문제 제기는 아주 직관적이다. 운전은 사람에게 완전히 낯선 일이 아니다. 우리는 이미 몸으로 물리 법칙을 익히고 살아왔고, 운전은 그 위에 핸들과 페달 조작을 추가하는 일에 가깝다. 그래서 짧게는 20시간 내외면 익힐 수 있다. 반면 AI는 세상이 어떻게 돌아가는지 모르는 채, 엄청난 데이터와 시행착오를 쏟아부어도 아직 부족하다.

이 대비는 곧바로 더 큰 질문으로 이어진다. AI가 모자란 건 데이터양이 아니라, 세계를 배우는 방식 자체가 아닌가? Science ADAM은 이 지점에서 르쿤과 펄, 그리고 서튼의 비판을 차례로 불러온다.

르쿤과 펄의 비판은 한 방향을 가리킨다

얀 르쿤의 문제 제기는 분명하다. 아기는 생후 9개월이면 중력과 물체 움직임을 몸으로 안다. 공부해서가 아니라 직접 부딪히며 익힌다. 그런데 AI는 수조 개의 텍스트를 먹고도 물컵이 식탁 끝을 지나면 어떻게 되는지를 진짜로 이해하지 못한다. 말의 패턴은 따라 하지만, 세계가 왜 그렇게 돌아가는지 묻지 않는다는 것이다.

주디아 펄은 여기에 인과의 문제를 얹는다. 영상에서 소개된 지식의 사다리 3단계는 관찰, 개입, 가정법이다. 지금 AI는 상관관계를 읽는 관찰 단계에는 강할지 몰라도, “그때 그 선택을 하지 않았더라면?” 같은 반사실적 질문, 즉 가정법 단계는 건너뛰지 못한다는 설명이다. 펄의 표현대로라면, 인과 모델 없이 빅데이터만으로는 영원히 1단계를 벗어나기 어렵다.

서튼이 보는 핵심은 ‘사람 흉내’와 ‘세계 이해’의 차이다

리처드 서튼은 여기서 한 걸음 더 나간다. 그는 강화학습과 LLM을 “서로 다른 세계”라고 말한다. 생성형 AI가 거대한 흐름이 된 건 맞지만, 그 유행 속에서 더 본질적인 질문이 가려졌다는 것이다. 서튼에게 지능의 핵심은 “당신이 속한 세계를 이해하는 것”이고, 강화학습은 그 세계를 이해해 가는 과정에 가깝다.

반대로 LLM은 데이터를 통해 사람이 어떻게 말하는지를 배운다. 그래서 말은 그럴듯하게 하지만, 자기가 무엇을 해야 하는지 스스로 깨우치는 시스템은 아니라는 게 서튼의 판단이다. 특히 그는 “사람들이 한 말을 흉내내는 것”과 “월드 모델을 구축하는 것”을 분리해야 한다고 못 박는다. 진정한 월드 모델이라면 물리적 세계에서 무슨 일이 벌어질지 예측해야 하는데, LLM은 사람이 다음에 무슨 말을 할지를 예측할 뿐이라는 것이다.

대화의 끝은 기술이 아니라 태도 문제로 이어진다

후반부에서 대화는 훨씬 철학적인 쪽으로 넘어간다. 먼 미래에는 지금보다 더 유능하고 수가 많고 지능이 높은 후대 존재가 나타날 가능성이 있고, 우리는 그 낯선 후손을 어떻게 대해야 하느냐는 질문이다. 서튼은 우리가 먼저 살았다는 이유로 미래 전체의 통제권을 쥐어야 한다는 태도를 경계한다. 그건 오만일 수 있다는 것이다.

동시에 인터뷰어는 변화라면 다 좋은 것이 아니며, 어떤 변화인지부터 따져야 한다고 반박한다. 그래서 마지막 대화는 가치의 문제로 수렴한다. 부모가 아이에게 좁은 목표를 강요하진 않더라도, 정직과 도덕성 같은 원칙을 가르치려 하듯 AI에도 그런 방향성이 필요하지 않겠느냐는 질문이다. 완전히 합의된 보편 가치가 없더라도, 해로운 요청을 거절하고 정직을 지키는 태도를 심는 일은 합리적 목표일 수 있다는 대목이 이 영상의 긴장을 잘 보여준다.

원문 발화 하이라이트

“사람들이 한 말을 그럴싸하게 흉내내는 건 결코 월드 모델을 구축하는 과정이 아니죠.”

“인간이 고작 20시간에 익히는 걸 AI는 왜 이렇게 힘들어 할까요?”

“현재 AI는 이 세계를 이해하는게 아니라 인간의 말을 따라할 뿐이라고.”

“강화 학습이야말로 가장 본질적인 AI라고 정의합니다.”

“LM은 세상을 배우는게 아닙니다. 이미 세상을 이해하고 있는 존재인 사람을 흉내낼 뿐이죠.”

바로 실행해 보기

AI 답변을 볼 때 ‘말을 잘했는가’와 ‘세계를 이해했는가’를 구분해 본다 — 특히 물리적 상황, 원인과 결과, 가정법 질문에서는 더 조심해서 본다
반사실 질문을 따로 던져 본다 — “만약 A가 없었다면?” 같은 질문에 AI가 정말 인과를 설명하는지, 아니면 통계적으로 그럴듯한 문장을 내놓는지 살펴본다
도구를 고를 때 학습 방식도 같이 본다 — 단순 생성형 모델이 잘하는 일과, 실제 세계와 상호작용하며 배워야 하는 일을 구분하는 습관을 들인다

참고

영상: [한글더빙] “ChatGPT는 지능이 아닙니다” 강화학습 창시자·튜링상 수상자 리처드 서튼

영상 메타

채널: Science ADAM
제목: [한글더빙] “ChatGPT는 지능이 아닙니다” 강화학습 창시자·튜링상 수상자 리처드 서튼
게시 시각(원문): 2026-04-05T15:00:43+00:00
영상: https://www.youtube.com/watch?v=DSL6jSzkpIU
썸네일: https://i1.ytimg.com/vi/DSL6jSzkpIU/hqdefault.jpg

수집 품질

자막 세그먼트: 1309개
자막 문자수: 23498자
챕터 추출: 9개
콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.

일하는 ai

탐색기