에반은 AI를 잘 쓰는 사람과 진짜 잘 쓰는 사람의 차이를 프롬프트 실력이 아니라 루프를 설계할 줄 아느냐에서 찾는다. 매번 처음부터 다시 가르치는 방식에서 벗어나, 평가하고 하나만 바꾸고 다시 재는 루프를 만들면 AI가 자는 동안에도 조금씩 더 좋아질 수 있다는 설명이다.

flowchart LR
A[매번 다시 가르치는 AI 사용] --> B[측정 없는 개선의 한계]
B --> C[평가·제안·검증·합치기 루프 설계]
C --> D[스스로 좋아지는 AI 시스템]

핵심 요약

  • 영상의 핵심 원칙은 측정 없는 진화는 금지다다.
  • 루프 엔지니어링은 AI에게 일을 한 번 시키는 게 아니라, 점점 더 잘하게 만드는 순환 과정을 설계하는 일로 설명된다.
  • 루프 한 바퀴는 평가 → 제안 → 검증 → 합치기 순서로 돌고, 점수가 올라갔을 때만 변경을 살린다.
  • 중요한 규칙은 한 번에 딱 하나만 바꾼다는 점과, 채점용 골든셋 같은 고정된 시험지가 필요하다는 점이다.
  • 마지막 QA, 특히 E2 테스트는 아직 사람이 직접 봐야 하는 영역으로 남아 있고, 그래서 휴먼 인 더 루프가 필요하다고 말한다.

왜 지금 중요한가

영상이 겨누는 문제는 익숙하다. AI에게 어제 한 말을 오늘 또 설명하고, 프롬프트를 고친 뒤 정말 좋아졌는지는 재보지 않은 채 넘어가는 방식이다. 개발자나 PM 입장에서는 이걸 감으로 운영하느냐, 측정 가능한 개선 루프로 바꾸느냐가 생산성 차이로 바로 이어진다.

주요 내용

1. 왜 지금 방식이 이상한가: 기억력 30분짜리 신입 직원

에반은 지금의 AI를 기억력이 30분짜리 신입 직원에 비유한다. 일은 잘하지만 퇴근하면 오늘 배운 걸 다 잊어버리는 직원 같아서, 우리는 매일 아침 똑같은 교육을 반복하게 된다는 설명이다. 문제는 여기서 끝나지 않는다. 프롬프트를 고쳤을 때 한 군데는 좋아지고 세 군데는 나빠졌는지조차 모른 채 넘어간다는 점을 체중계 없이 다이어트하는 것에 빗댄다.

2. 루프 엔지니어링은 측정-수정-재측정의 구조다

루프 엔지니어링은 헬스 트레이너 비유로 풀린다. 좋은 트레이너는 운동만 시키지 않고 측정하고 한 가지 고치고 다시 측정한다. AI도 똑같다. 영상에서 제시한 실제 루프는 평가, 제안, 검증, 합치기 네 단계다. 먼저 지금 실력이 몇 점인지 재고, 한 부분만 바꿔 보고, 같은 시험으로 다시 점수를 재고, 점수가 올라갔을 때만 반영한다. 요리사가 소금을 아주 조금만 더 넣어 보고 다시 맛본 뒤 레시피에 적는 방식과 같다고 설명한다.

3. 프롬프트에서 루프까지: 기술 스택이 시간축으로 확장된다

영상은 AI 활용 기술의 진화를 프롬프트 엔지니어링 → 컨텍스트 엔지니어링 → 하네스 엔지니어링 → 루프 엔지니어링으로 정리한다. 프롬프트가 한 문장이라면, 컨텍스트는 자료와 도구를 챙겨 주는 일이고, 하네스는 검사기·테스트·규칙 같은 주변 장치다. 루프는 여기서 한 단계 더 나아가 그 작업장이 매일 스스로 개선되는 공장이 되는 상태로 설명된다. 에이전트는 모델 더하기 하네스다라는 말도 이 문맥에서 나온다.

4. 골든셋, 오답노트, 그리고 아직 남아 있는 QA

잘 도는 루프에는 고정된 시험지, 즉 골든셋이 필요하다고 말한다. 채점 기준은 자주 시키는 일 하나를 골라 다섯에서 일곱 개 정도의 예·아니오 기준으로 만들라고 제안한다. 실패한 변경은 버리기만 하지 말고 이거 해 봤는데 안 됐음이라고 남겨서 오답노트처럼 써야 한다는 점도 강조한다. 또 규칙을 더하기만 하지 말고 세 바퀴마다 한 번씩은 더하는 대신 뭘 지울까를 고민해야 한다고 말한다. 다만 마지막 QA, 특히 처음부터 끝까지 다 돌려보는 E2 테스트는 아직 AI가 잘 못해서 사람이 직접 들어가 보는 단계가 필요하다고 정리한다.

원문 발화 하이라이트

  • [01:47] “측정 없는 진화는 금지다. 이 한 문장이 오늘 영상의 심장이에요.”
  • [04:09] “첫째 평가해요. 지금 실력이 몇 점인지 먼저 재요.”
  • [04:21] “넷째 합쳐요. 점수가 올라갔을 때만 그 변경을 살려요.”
  • [04:46] “한 번에 딱 하나만 바꾼다.”
  • [12:02] “AI를 잘 쓰는 사람과 진짜 잘 쓰는 사람의 차이는요. 프롬프트 실력이 아니에요. 루프를 설계할 줄 아느냐입니다.”

바로 실행해 보기

  • AI에게 가장 자주 시키는 일 하나를 고르고, 결과물을 판정할 예/아니오 기준 5~7개짜리 채점표부터 만든다.
  • 프롬프트든 규칙이든 한 번에 하나만 바꾼 뒤, 같은 입력과 같은 채점표로 전후 점수를 다시 재본다.
  • 점수가 안 오른 변경은 버리지 말고 해봤는데 안 됨 목록으로 남겨서, 다음 루프에서 같은 실험을 반복하지 않게 만든다.

참고

영상 메타

수집 품질

  • 자막 세그먼트: 388개
  • 자막 문자수: 7012자
  • 챕터 추출: 18개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.