96. 쓸수록 똑똑해지는 AI 에이전트 헤르메스

헤르메스 에이전트가 “쓸수록 똑똑해진다”는 말을 이 영상은 꽤 구체적인 구조로 풀어낸다. 모델 자체를 다시 학습시키는 게 아니라, 일을 처리하는 설명서인 스킬을 계속 고쳐 쓰면서 다음 작업의 정확도와 속도를 올린다는 설명이다.

flowchart LR
A[대화가 끝나면 까먹는 일반 에이전트] --> B[사실은 메모리, 방법은 스킬로 분리 저장]
B --> C[일하면서 복습하거나 날 잡고 스킬 대청소]
C --> D[사람이 읽을 수 있는 설명서가 누적되고 다섯 관문 뒤에만 채택]

핵심 요약

헤르메스가 좋아지는 대상은 모델의 “두뇌”가 아니라 일을 푸는 설명서인 스킬이며, 이 스킬은 사람이 메모장으로 열어 읽을 수 있는 평범한 글이다.
기억은 두 서랍으로 나뉜다. 친구 생일 같은 사실은 메모리에, 자전거 타는 법이나 라면 끓이는 법 같은 방법은 스킬에 저장된다.
스킬은 이름과 한 줄 설명이 적힌 표지, 그리고 실제 방법이 적힌 내용으로 구성된다. 내용은 “언제 쓰나요 / 순서 / 주의할 점 / 확인하는 방법” 네 칸 구조다.
스킬이 실제로 좋아지는 지점은 주로 “주의할 점”과 “확인하는 방법”이다. 일하다 막혔던 지점과 빠져나온 방법이 여기에 쌓이면서 같은 실수를 덜 하게 된다.
개선 방식은 두 갈래다. 하나는 일하면서 분신이 방금 대화를 다시 읽고 스킬을 쌓는 방식이고, 다른 하나는 2,000원에서 만 원 정도를 들여 여러 고침 버전을 시험해 점수 높은 버전만 남기는 스킬 대청소다.

왜 지금 중요한가

영상은 AI가 좋아진다는 말을 막연한 홍보 문구가 아니라, 문서 구조와 채점 방식, 승인 절차까지 보이는 부품 단위로 설명한다. 특히 코드, 파일 다루기, 정해진 절차처럼 정답 판별이 비교적 또렷한 업무에서 어떤 식으로 개선 루프를 돌릴 수 있는지 보여준다는 점이 실무자에게 직접적이다.

주요 내용

스킬은 모델 재학습이 아니라 사람이 읽는 설명서다

초반 설명에서 가장 먼저 선을 긋는 부분은 “AI의 두뇌를 다시 안 가르친다”는 점이다. 헤르메스는 머리 자체를 바꾸지 않고, 그 머리에 건네는 사용 설명서인 스킬을 스스로 고친다. 이 스킬은 읽을 수 없는 숫자 덩어리가 아니라 사람이 열어볼 수 있는 글이라서, 무엇이 바뀌었는지 직접 읽고 통제할 수 있다고 설명한다.

스킬 파일 구조도 단순하다. 표지에는 스킬 이름과 한 줄 설명이 있고, 본문에는 실제 처리 방법이 들어간다. 에이전트가 수십, 수백 개의 스킬 중에서 맞는 걸 고를 때는 도서관에서 책 제목만 보고 뽑듯이 표지를 먼저 훑는다.

진짜 성장은 주의할 점과 확인하는 방법에 쌓인다

영상은 스킬 본문을 네 칸으로 설명한다. “언제 쓰나요”, “순서”, “주의할 점”, “확인하는 방법”이다. 여기서 시간이 갈수록 두꺼워지는 칸은 세 번째와 네 번째다. 기본 순서는 처음부터 어느 정도 적을 수 있지만, 실제 함정은 일을 해봐야 드러나기 때문이다.

그래서 헤르메스가 똑똑해진다는 말은 거창한 자기 진화보다, 실수 노트가 한 줄씩 붙는 데 가깝다. 발표자는 등산길의 “여기 미끄러우니 조심” 표지판에 비유한다. 한 번 넘어진 사람이 경고를 남겨두면 다음 사람은 같은 곳에서 덜 미끄러진다는 식이다.

일하면서 쌓는 방식과 날 잡고 고치는 방식은 다르게 돈다

개선 방법은 두 가지다. 첫 번째는 일하면서 스스로 정리하는 방식이다. 사용자의 요청에 답한 뒤, AI가 “방금 일이 어려웠나”를 스스로 묻고, 어려웠다면 분신을 하나 만들어 방금 대화를 처음부터 다시 읽게 한다. 이 루프는 평소에 알아서 돌고, 따로 비용도 거의 안 든다고 설명한다.

두 번째는 스킬 대청소다. 이건 사람이 “오늘 스킬 제대로 정비하자” 하고 시작 버튼을 눌러야 돌아간다. 한 번 돌릴 때 비용은 대략 2,000원에서 만 원쯤이고, 여러 고침 버전을 만들어 시험을 치른 뒤 점수 높은 버전만 남긴다. 발표자는 이 과정을 모의고사 반복에 비유하며, 특히 “왜 틀렸는지”를 보고 그 이유만 콕 집어 고친다는 점을 강조한다.

좋은 스킬을 남기는 기준은 채점, 숨겨둔 문제, 다섯 관문이다

스킬 대청소의 여섯 단계도 구체적으로 나온다. 키울 스킬을 읽고, 시험 문제를 만들고, 지난 시험에서 왜 틀렸는지 분석하고, 고침 버전을 여러 개 만들고, 점수를 먹이고, 검사를 통과하면 사람이 최종 승인한다. 여기서 시험 문제 모음집은 “정답지”로 불리며, 각 문제에는 “시키는 일”과 “좋은 답의 조건” 두 가지가 들어간다.

좋은 답의 조건은 모범 답안 전문이 아니라 체크리스트다. 채점은 답변에 핵심 단어가 얼마나 담겼는지로 이뤄지기 때문에, “잘 고쳐줘” 같은 문장보다 “번역투”, “말투 자연스럽게” 같은 구체적 단어가 필요하다고 짚는다. 채점 방식도 둘로 나뉜다. 하나는 AI를 부르지 않고 핵심 단어 겹침만 보는 빠르고 거친 채점, 다른 하나는 AI 심판이 “답이 맞았는지, 순서를 잘 지켰는지, 간결한지”를 보는 꼼꼼한 채점이다.

채택 직전에는 더 신중해진다. 공부할 때 보여주지 않은 숨겨둔 문제로 원래 스킬과 새 스킬을 비교하고, 새 버전 점수가 더 높아야 다음 단계로 간다. 그래도 바로 쓰지 않는다. 모든 시험 통과, 길이 과다 여부, 표지 손상 여부, 원래 목적 이탈 여부, 사람의 최종 승인까지 다섯 관문을 모두 통과해야 실제 스킬로 채택된다. 점수가 높아도 위험하면 막는 구조라는 설명이다.

원문 발화 하이라이트

“헤르메스는 AI의 두뇌를 다시 안 가르쳐요. 대신 그 머리한테 주는 사용 설명서, 그러니까 스킬을 스스로 고쳤어요.” ([01:06]~[01:15])
“기억에는 두 종류가 있어요. 하나는 사실이에요… 다른 하나는 방법이에요.” ([02:09]~[02:18])
“기억하세요. 똑똑해진다는 건요. 주의할 점이나 확인하는 법이 점점 두툼해진다는 뜻입니다.” ([04:05]~[04:10])
“한 번 돌릴 때 비용이 좀 들어요. 한 2,000원에서 만 원쯤이에요.” ([04:48]~[04:53])
“점수가 아무리 높아도 관문 하나라도 못 넣으면 못 써요. 똑똑하지만 위험한 버전을 이 다섯 관문이 걸러내요.” ([14:06]~[14:13])

바로 실행해 보기

반복되는 업무가 있다면 먼저 스킬 문서를 네 칸으로 나눠 적어본다. “언제 쓰나요 / 순서 / 주의할 점 / 확인하는 방법”만 분리해도, 다음 실행 때 무엇을 보강해야 하는지 바로 보인다.
사용자 피드백을 받았을 때는 감상평으로 끝내지 말고 “시키는 일 + 좋은 답의 조건” 한 줄짜리 시험 문제로 바꿔 정답지에 추가한다. 영상에서 말한 개선 루프는 여기서 시작된다.
새 버전을 바로 배포하지 말고, 안 보여준 문제 세트와 다섯 관문을 먼저 둔다. 특히 원래 목적에서 벗어나지 않았는지와 사람 최종 승인을 분리해 두는 방식은 그대로 가져다 쓰기 좋다.

참고

영상: https://www.youtube.com/watch?v=yupLx5y4JJY

영상 메타

채널: 메이커 에반 | Maker Evan
제목: 쓸수록 똑똑해지는 AI 에이전트, 헤르메스 완벽 정리
게시 시각(원문): 2026-06-07T08:41:23+00:00
영상: https://www.youtube.com/watch?v=yupLx5y4JJY
썸네일: https://i2.ytimg.com/vi/yupLx5y4JJY/hqdefault.jpg

수집 품질

자막 세그먼트: 470개
자막 문자수: 8481자
챕터 추출: 10개
콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.

일하는 ai

탐색기