해커뉴스에 올라온 “AI로 짠 코드 줄수를 KPI로 본다”는 이야기를 출발점으로, 토큰 사용량을 평가에 넣는 방식이 언제는 도움이 되고 언제는 독이 되는지 짚는다. 메이커 에반의 결론은 단순하다. 조직이 아직 AI에 익숙하지 않은 단계인지, 이미 잘 쓰는 단계인지부터 나누지 않으면 같은 지표가 전혀 다른 결과를 만든다.
flowchart LR A[AI 코드 비율·토큰 사용량을 KPI로 넣음] --> B[도입 초기엔 AI 사용 저항과 관성이 큼] B --> C[조직 단계를 나눠 평가 방식을 다르게 가져감] C --> D[숙련 단계에선 어뷰징과 비용 낭비를 막고 결과물 중심으로 전환]
핵심 요약
- AI가 작성한 코드 비율이나 토큰 사용량을 직원 평가에 넣는 회사가 늘고 있고, 관리자가 매주 토큰 사용량을 묻는 상황도 생기고 있다.
- 도입 초기에는 사람들이 AI를 거의 안 쓰고 반감도 커서, 토큰 사용량 추적이 익숙해지게 만드는 압박으로는 효과가 있을 수 있다.
- 익숙해진 뒤에도 토큰 KPI를 유지하면, 시니어 개발자가 5분이면 끝낼 일까지 AI에 넘겨 매트릭만 채우는 식의 어뷰징이 쉬워진다.
- 토큰은 측정하기 쉽지만 그 호출이 진짜 의미 있었는지는 시스템이 판단하지 못해, 영리할수록 게임하기 쉬운 지표가 된다.
- 숙련 단계에서는 토큰 양에 상한을 두고, 완료한 기능 수·해결한 이슈·코드 품질·리뷰 통과 같은 결과물로 평가를 옮겨가야 한다.
왜 지금 중요한가
처음에는 “AI를 적극 도입하자”는 메시지였던 것이 어느 순간 KPI가 됐다는 설명이 핵심 맥락이다. 겉으론 AI 활용도가 높아 보여도, 실제로는 필요 없는 호출이 쌓이면서 회사는 수천만 원 단위 API 비용을 내고 직원은 의미 없는 작업에 지칠 수 있다는 점을 함께 짚는다.
주요 내용
1. 도입 초기엔 토큰 추적이 적응 장치가 될 수 있다
에반은 도입 초기 조직에선 토큰 사용량 추적이 의외로 괜찮다고 본다. 이유는 사람들이 AI를 진짜로 잘 안 쓰고, “써야 하는 건 아는데 손이 안 간다”는 반감과 관성이 크기 때문이다. 새 협업 도구를 도입했을 때도 그냥 두면 안 쓰다가, 슬랙에 매일 올리게 해야 그제야 익숙해지는 상황과 비슷하다고 말한다. 이 단계에선 잘 쓰는 것보다 일단 쓰는 게 목표다.
2. 익숙해진 뒤엔 줄수 평가의 부활처럼 돌아온다
문제는 조직이 어느 정도 익숙해진 뒤다. 댓글에서 나온 사례처럼, 개발자가 안 중요한 작업까지 일부러 AI에게 시키는 일이 생긴다. 시니어 개발자가 5분이면 끝낼 일, 간단한 정규식 하나, 변수명 바꾸기, 주석 다듬기까지 전부 AI 호출로 돌리면 매트릭은 좋아 보인다. 하지만 결과는 사람이 직접 했을 때보다 더 나쁠 수도 있고, 회사는 그걸 “AI를 잘 쓰는 팀”으로 오해할 수 있다.
3. 왜 토큰 KPI는 어뷰징이 쉬운가
영상에서 가장 날카로운 지점은 여기다. 토큰은 얼마나 썼는지 쉽게 셀 수 있지만, 그 토큰이 진짜 의미 있게 쓰였는지는 알 수 없다는 것. 신입에게 “오늘 몇 시간 일했어?”만 묻는 것과 같다는 비유가 나온다. 자리에 앉아 있던 시간만 재면 실제 한 일은 안 보이는 것처럼, AI 호출 횟수나 토큰 양만으로는 실질적인 기여를 판단할 수 없다는 얘기다.
4. 비용은 새고, 평가는 결과물로 바뀌어야 한다
이 방식이 무서운 이유는 숫자만 왜곡하는 데서 끝나지 않는다는 점이다. 영상에선 회사 전체 AI API 비용이 한 달 수천만 원, 큰 회사는 억 단위까지 갈 수 있다고 말한다. 그 비용이 필요한 작업이 아니라 KPI를 채우려고 돌린 호출, 변수명만 바꾸려고 보낸 요청, 필요 없는 MCP를 덕지덕지 붙여 의미 없이 날린 호출로 빠져나갈 수 있다는 것이다. 그래서 1단계 도입에선 사용량 추적을 도입 진행 지표로만 보고, 2단계에선 어떤 작업에 어떻게 썼는지 회고하고, 3단계 숙련에선 1인당 토큰 상한과 결과물 중심 평가로 가야 한다고 정리한다.
원문 발화 하이라이트
- [00:18] “AI가 작성한 코드 비율 또는 토큰 사용량을 직원 평가에 넣는 회사들이요. 관리자가 매주 이번 주 토큰 얼마 썼어요를 묻는 거죠.”
- [01:31] “이 단계에선 양이 핵심이에요. 잘 쓰는게 아니라 일단 쓰는게 목표인 거죠.”
- [01:45] “시니어 개발자가 5분이면 끝낼 일을 일부러 AI한테 시켜요. 왜? 토큰을 늘려야 되니까요.”
- [02:29] “요즘 AI API 비용 보셨나요? 회사 전체로 따지면 한 달에 수천만 원. 큰 회사는 억단이에요.”
- [03:12] “몇 토큰 썼냐가 아니라 뭘 끝냈냐를 봐야 해요.”
바로 실행해 보기
- 지금 팀이 AI를 거의 안 쓰는 단계인지, 다들 매일 쓰기 시작한 단계인지, 이미 잘 쓰는 숙련 단계인지 먼저 나눠 본다. 영상의 기준은 이 단계 구분 없이 같은 KPI를 쓰지 말자는 데 있다.
- 도입 초기라면 토큰 사용량은 평가 점수가 아니라 도입 진행 지표로만 두고, 주간 미팅에서 “이번 주 다들 얼마나 써봤는지”와 유즈케이스를 공유한다.
- 이미 익숙한 팀이라면 토큰 KPI는 평가에서 빼고, 어떤 작업에 어떻게 썼는지 회고 자리를 만들고, 분기 1인당 토큰 한도를 두면서 완료한 기능 수·해결한 이슈·코드 품질·리뷰 통과를 같이 본다.
참고
영상 메타
- 채널: 메이커 에반 | Maker Evan
- 제목: AI 토큰 KPI 도입한 회사 한 달 수천만 원이 사라집니다
- 게시 시각(원문): 2026-05-10T07:17:44+00:00
- 영상: https://www.youtube.com/watch?v=z5uoWmuCnRg
- 썸네일: https://i3.ytimg.com/vi/z5uoWmuCnRg/hqdefault.jpg
수집 품질
- 자막 세그먼트: 149개
- 자막 문자수: 2727자
- 챕터 추출: 10개
- 콘텐츠 생성: Subagent 기반
AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.
