해커뉴스에 올라온 한 문장에서 출발한다. AI로 짠 코드 줄수와 토큰 사용량을 KPI로 볼 때, 도입 초기엔 적응 장치가 되지만 익숙해진 뒤엔 어뷰징과 비용 낭비가 커진다는 이야기다.
flowchart LR A[AI 토큰 사용량을 KPI로 넣는 평가] --> B[도입 초기엔 AI 사용 저항과 관성이 큼] B --> C[도입·적응·숙련 단계별로 평가 방식을 다르게 적용] C --> D[어뷰징과 비용 낭비를 줄이고 결과물 중심 평가로 전환]
핵심 요약
- 회사가 AI 사용량을 매주 묻기 시작하면, 도입 메시지가 어느 순간 KPI로 굳어질 수 있다.
- 도입 초기에는 사람들이 AI를 잘 안 쓰고 반감도 커서, 토큰 사용량 추적이 강제 적응 장치로는 효과적일 수 있다.
- 익숙해진 뒤에도 같은 지표를 계속 평가에 넣으면, 5분이면 끝낼 일까지 AI에 넘겨 토큰을 부풀리는 어뷰징이 생긴다.
- 토큰은 측정하기 쉽지만, 그 호출이 실제로 의미 있었는지는 시스템이 판단하지 못한다.
- 숙련 단계로 갈수록 토큰은 상한을 두고, 평가는 완료한 기능·해결한 이슈·코드 품질·리뷰 통과 같은 결과물 중심으로 옮겨가야 한다.
왜 지금 중요한가
해커뉴스에 올라온 “AI로 짠 코드 줄수를 KPI로 본다”는 사례에서 출발하지만, 글이 겨누는 문제는 더 넓다. 이미 여러 회사가 AI 작성 코드 비율이나 토큰 사용량을 직원 평가에 넣고 있고, 처음엔 “적극적으로 써보라”는 신호였던 것이 시간이 지나며 평가 지표 자체로 굳어지고 있기 때문이다. 이 상태가 이어지면 도입률은 높아 보여도 실제 생산성과 비용 구조는 반대로 망가질 수 있다.
주요 내용
1. 도입 초기에선 ‘일단 쓰게 만드는 압박’이 필요하다
에반은 도입 초기 조직에서는 토큰 사용량 추적이 의외로 괜찮다고 말한다. 이유는 단순하다. 사람들이 AI를 진짜로 안 쓰고, “써야 하는 거 아는데 손이 안 가요”라는 저항이 크기 때문이다. 새 협업 도구를 깔아도 그냥 두면 안 쓰다가, “매일 슬랙에 올려라” 같은 운영 규칙이 생겨야 익숙해지는 상황을 예로 든다. 이 단계에선 잘 쓰는 것보다 매일 손이 가게 만드는 게 먼저다.
2. 익숙해진 뒤엔 줄수 KPI의 부활이 된다
문제는 같은 지표를 계속 평가에 걸어둘 때다. 댓글 사례로 “안 중요한 작업까지 일부러 AI한테 시킨다”는 개발자 얘기가 나온다. 매트릭을 채워야 하니, 시니어 개발자가 5분이면 끝낼 일도 AI 호출로 돌리고, 간단한 정규식 하나, 변수명 바꾸기, 주석 다듬기 같은 작업까지 전부 토큰 사용량으로 환산해 버린다. 겉으로는 AI를 잘 쓰는 팀처럼 보이지만, 실제론 사람이 했을 때보다 결과가 더 나쁠 수도 있다는 지적이다.
3. 토큰은 쉽게 재지만, 의미는 못 잰다
에반이 특히 문제 삼는 지점은 측정 가능성과 가치 판단이 분리돼 있다는 점이다. 시스템은 “AI에 호출 몇 번 했어”는 셀 수 있지만, 그 토큰이 진짜 의미 있게 쓰였는지는 알 방법이 없다고 말한다. 신입에게 “오늘 몇 시간 일했어”만 묻는 것과 비슷하다는 비유도 여기서 나온다. 자리에 앉아 있던 시간만 재는 것처럼, 토큰 사용량만으로는 실제 기여를 읽을 수 없다는 얘기다. 그래서 영리할수록 어뷰징이 쉬워진다고 본다.
4. 비용은 실제로 새고, 평가는 결과물로 옮겨가야 한다
후반부에서 가장 현실적인 대목은 비용 이야기다. 회사 전체로 보면 AI API 비용이 한 달 수천만 원, 큰 회사는 억 단위까지 갈 수 있는데, 그 돈이 정작 필요한 작업이 아니라 KPI를 채우기 위한 불필요한 호출로 빠져나간다는 것이다. 줄수를 늘리려고 AI에게 변수 이름을 바꿔 달라고 하거나, 필요 없는 MCP를 덕지덕지 붙여 의미 없이 호출하는 장면을 예로 든다. 그래서 숙련 단계에 들어가면 1인당 분기 토큰 한도를 두고, 평가는 “몇 토큰 썼냐”가 아니라 완료한 기능 수, 해결한 이슈, 코드 품질, 리뷰 통과 같은 결과물로 옮겨가야 한다고 정리한다.
원문 발화 하이라이트
- [00:18] “AI가 작성한 코드 비율 또는 토큰 사용량을 직원 평가에 넣는 회사들이요. 관리자가 매주 이번 주 토큰 얼마 썼어요를 묻는 거죠.”
- [01:31] “이 단계에선 양이 핵심이에요. 잘 쓰는게 아니라 일단 쓰는게 목표인 거죠.”
- [01:45] “시니어 개발자가 5분이면 끝낼 일을 일부러 AI한테 시켜요. 왜? 토큰을 늘려야 되니까요.”
- [02:29] “요즘 AI API 비용 보셨나요? 회사 전체로 따지면 한 달에 수천만 원. 큰 회사는 억단이에요.”
- [03:12] “몇 토큰 썼냐가 아니라 뭘 끝냈냐를 봐야 해요.”
바로 실행해 보기
- 사람들이 AI를 거의 안 쓰는 팀이라면, 주간 미팅에서 “이번 주 다들 얼마나 써봤냐”를 공유하고 토큰 사용량은 평가가 아니라 도입 진행 지표로만 본다.
- 다들 매일 쓰기 시작한 상태라면, 토큰 KPI를 평가에서 빼고 어떤 작업에 어떻게 썼는지 회고하는 자리를 만든다.
- 잘 쓴 케이스를 팀에 퍼뜨리기 위해, 회고 자리에서 유즈케이스와 노하우를 공유한다.
- 이미 다들 잘 쓰는 단계라면, 분기 1인당 토큰 한도를 두고 이 작업이 진짜 AI 호출까지 필요한지 같이 보면서 합의한다.
참고
영상 메타
- 채널: 메이커 에반 | Maker Evan
- 제목: AI 토큰 KPI 도입한 회사 한 달 수천만 원이 사라집니다
- 게시 시각(원문): 2026-05-10T07:17:44+00:00
- 영상: https://www.youtube.com/watch?v=z5uoWmuCnRg
- 썸네일: https://i3.ytimg.com/vi/z5uoWmuCnRg/hqdefault.jpg
수집 품질
- 자막 세그먼트: 149개
- 자막 문자수: 2727자
- 챕터 추출: 10개
- 콘텐츠 생성: Subagent 기반
AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.
