앤트로픽은 회사 데이터 분석 질문의 95%를 AI에 넘겼고, 어떤 영역에서는 정확도가 99%까지 나왔다고 설명한다. 메이커 에반은 이 성과를 만든 핵심을 에이전트 자체보다 스킬, 그리고 그 스킬이 기대는 컨텍스트 구조·검증·강제 장치에서 찾는다.

flowchart LR
A[데이터 분석 자동화가 자꾸 실패함] --> B[개념의 애매함·데이터 decay·정보 탐색 실패]
B --> C[표준 데이터셋과 진실의 원천, 스킬, 평가·검증 체계]
C --> D[분석 질문 95% 자동화와 데이터 사이언티스트의 업무 해방]

핵심 요약

  • 앤트로픽은 회사 데이터 분석 질문의 95%를 AI에 넘겼고, 평균 정확도 95%, 특정 영역은 99%까지 올렸다고 말한다.
  • 기존 방식 세 가지는 모두 한계가 있었다. 모든 데이터를 거대한 시트로 합치는 방식은 정의가 엇갈렸고, 대시보드 중심 방식은 자잘한 질문을 못 받았고, AI 에이전트에 그냥 맡기는 방식은 그럴듯하지만 검증할 길이 없는 답을 만들었다.
  • 진짜 문제는 세 가지로 정리된다. 개념과 실제 데이터 사이의 애매함, 테이블 구조와 정의와 로직이 계속 바뀌는 decay, 그리고 회사 어딘가에 있는 정답을 AI가 못 찾는 문제다.
  • 해결 구조의 앞단은 표준 데이터셋과 진실의 원천이다. 매출처럼 자주 흔들리는 지표를 딱 하나의 데이터로 고정하고, CI/CD로 규칙을 강제하고, 메타데이터를 제품처럼 관리한다.
  • 정확도는 모델 자체보다 맥락과 검증에서 올라간다. 정답을 아는 문제들로 오프라인 평가를 돌리고, 영역별 90% 미만이면 출시를 막고, 출처 푸터·자동 교정 수집·AI 검토관까지 붙여 신뢰도를 관리한다.

왜 지금 중요한가

영상은 AI가 똑똑해졌다는 이야기보다, 회사 안에서 믿고 쓸 수 있는 분석 시스템을 어떻게 설계하느냐에 더 집중한다. 특히 메이커 에반이 이 글에서 배운 내용을 자기 스킬 설계에 옮기고 있다고 말하는 대목 때문에, 이 내용은 툴 소개가 아니라 바로 팀 운영 루틴으로 연결된다.

주요 내용

1. 왜 기존 데이터 접근 방식이 계속 무너졌는가

영상은 먼저 세 가지 실패 패턴을 짚는다. 첫 번째는 모든 데이터를 한 장의 거대한 엑셀 시트처럼 펴는 방식이다. 처음엔 편해 보여도 회사가 커지면 비슷한 시트가 늘고, 같은 매출도 시트마다 계산 방식이 달라진다. 두 번째는 미리 정해진 대시보드만 보게 하는 방식인데, 사람들이 실제로 궁금한 자잘한 질문을 못 받아서 대시보드가 끝없이 늘어난다. 세 번째는 AI 에이전트에게 그냥 맡기는 방식으로, 답은 그럴듯하지만 회사의 진짜 데이터 구조나 문서 지식과 분리돼 있어서 맞는지 확인할 길이 없다.

2. 앤트로픽이 본 진짜 문제는 애매함, decay, 탐색 실패다

가장 먼저 나오는 문제는 개념과 데이터 사이의 애매함이다. 영상은 활성자라는 말 하나에도 “로그인만 하면 되는지”, “글을 써야 하는지”, “가짜 계정을 포함하는지”, “며칠 전까지 본 걸 활성으로 칠지” 같은 질문이 따라붙는다고 설명한다. 여기에 회사 데이터의 구조와 정의와 로직이 계속 바뀌는 decay가 겹치고, 정답이 회사 어딘가에 있어도 AI가 분류표 없이 도서관을 헤매듯 못 찾는 문제가 더해진다.

3. 컨텍스트 4계층에서 앞의 두 층은 데이터 공사와 진실의 원천이다

1층은 데이터 기초 공사다. 표준 데이터셋을 만들어 “매출은 무조건 이 데이터를 봐라”라고 못 박고, 그 규칙을 CI/CD로 강제한다. 영상은 코드 올릴 때 자동으로 검사하는 컨베이어 검수대처럼 규칙을 안 지키면 통과를 못 시키는 구조를 강조한다. 메타데이터도 부록이 아니라 제품처럼 관리한다.

2층은 진실의 원천들이다. 맨 위에는 공식 인증된 지표 계산기인 시멘틱 레이어가 있고, 그 아래에는 데이터가 어디서 와서 어떻게 변했는지 보여 주는 데이터 족보가 있다. 또 예전 SQL은 그냥 쌓아두지 않고 정리된 참고 문서로 다듬어 두며, 그 아래에는 로드맵·의사결정 기록·조직도 같은 회사 맥락 지식이 놓인다. 여기서 영상이 반복해서 강조하는 대목은, 낡은 SQL을 그냥 검색하게 했더니 정확도가 1%도 안 올랐다는 점이다.

4. 스킬과 검증이 정확도를 뒤집고, 시작은 작게 한다

영상은 3층의 이름을 스킬이라고 부르며, 이 층이 정확도를 21%에서 95%로 뒤집은 층이라고 짚는다. 이후 검증 파트에서는 미리 정답을 아는 문제들을 대량으로 만들어 AI에게 시험을 보게 하고, 그 시험 문제도 클로드가 대시보드를 보고 자동으로 뽑는다고 설명한다. 사람은 이를 검수하고, 영역별 정확도가 90%를 넘지 못하면 출시를 막는다.

여기서 더 흥미로운 실험도 나온다. 과거 SQL 수천 개를 통째로 줬고 그중 80%가 관련성이 있었지만 정확도는 1점도 오르지 않았다. 영상은 이 결과를 두고 문제가 정보 접근이 아니라 구조라고 해석한다. 질문을 데이터에 어떻게 연결하느냐는 다리가 없으면, 답이 파일 안에 있어도 쓸 수 없다는 뜻이다. 여기에 실시간 검증을 붙이면 정확도는 6% 올라가고 토큰은 32% 줄지만, 응답 시간은 72% 늘어난다. 그래서 출처 푸터와 자동 교정 수집까지 포함해 정확도·비용·속도를 함께 설계해야 한다고 정리한다.

원문 발화 하이라이트

  • “[00:12] 95%를 AI한테 통제로 넘겼다는 거예요. 정확도요. 무려 95%예요.”
  • “[02:24] 분명히 정답이 회사 어딘가에 있어요. 근데 AI가 그걸 못 찾아요.”
  • “[04:28] 낡어서 SQL을 그냥 검색하게 했더니만 정확도가 1%도 안 올랐대요.”
  • “[08:38] 데이터는 쌓는게 아니라 구조화하는 거예요. 이게 핵심 교훈입니다.”
  • “[10:22] 정확도는 결국 맥락이랑 검증의 문제예요. 모델이 똑똑한가의 문제가 아닙니다.”

바로 실행해 보기

  • 팀에서 가장 중요한 핵심 데이터 몇 개만 먼저 골라 표준 데이터셋으로 지정하고, “이 지표는 이 데이터만 본다”는 규칙을 문서가 아니라 CI/CD로 강제한다.
  • 미리 정답을 아는 시험 문제를 수십 개 만든 뒤 오프라인 평가 세트를 돌리고, 영역별 정확도가 90%를 넘지 못하면 배포하지 않는 게이트를 건다.
  • 처음부터 두꺼운 에이전트를 만들기보다 안내 데스크 역할만 하는 얇은 지식 스킬 하나로 시작하고, 그다음 오류 허용 범위·비즈니스 복잡도·정확도와 속도의 우선순위에 맞춰 한 층씩 쌓아 올린다.

참고

영상 메타

수집 품질

  • 자막 세그먼트: 378개
  • 자막 문자수: 6783자
  • 챕터 추출: 7개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.