06. 비용 최적화

같은 작업인데 비용이 3배, 10배 차이 나는 이유는 모델보다 컨텍스트 설계 방식일 때가 많습니다. 이번 편은 품질을 유지하면서 비용을 낮추는 실전 방법을 다룹니다.

AI 활용 안내: 이 문서는 생성형 AI 보조를 받아 작성되었습니다.

flowchart LR
A[고정 정보] --> C[캐싱/재사용]
B[가변 정보] --> D[요청별 갱신]
C --> E[비용 안정]
D --> E
E --> F[품질 유지]

비용이 새는 지점 4가지

매번 긴 배경을 통째로 재주입
이미 합의한 규칙을 반복 입력
작은 수정에도 전체 재생성
고급 모델을 분류/전처리까지 전부 사용

비용을 줄이는 5가지 전략

1) 고정/가변 분리

고정: 역할/톤/금지/출력 계약
가변: 오늘 데이터/최신 링크/요청 조건

핵심: 고정 정보는 한번 정하고 재사용, 가변만 교체

2) 요약 캐시

긴 대화는 요약본으로 치환
원문은 필요할 때만 참조

핵심: 정보량이 아니라 정보 밀도를 높임

3) 단계별 생성

목차 → 섹션 → 최종본
전체 재생성 대신 부분 수정

핵심: 수정 범위를 줄여 토큰 낭비 방지

4) 모델 라우팅

분류/전처리: 경량 모델
핵심 작성/판단: 상위 모델

핵심: 비싼 모델을 필요한 구간에만 사용

5) 출력 계약 선명화

길이/형식/섹션 고정
재작성 트래픽 최소화

핵심: 처음부터 납품 형식을 맞추면 재시도 비용 감소

비용 최적화 실전 예시

예시 A: 주간 브리핑

기존: 매일 전체 배경 + 전체 히스토리 재투입
개선: 고정 규칙 문서 + 오늘 뉴스만 교체
핵심 변화: 작성 품질 유지, 반복 비용 안정

예시 B: 문서 수정

기존: 전체 문서 재생성
개선: 수정 구간만 지정 편집
핵심 변화: 토큰/검수 시간 동시 절감

KPI로 보는 비용 관리

지표	의미	목표 예시
요청당 평균 토큰	작업 1회 비용	주간 10~20% 절감
재생성 비율	같은 결과물 재요청 비율	30% 이하
고정 컨텍스트 비율	재사용 가능한 입력 비중	60% 이상
부분 수정 비율	전체 재작성 대신 부분 수정	70% 이상

30분 실습 (비용 리팩터링)

도구

기존 작업 로그
메모 파일

입력 자료

비용이 높았던 작업 1건
해당 작업 요청문/산출물

실행 절차

입력을 고정/가변으로 분리
고정 규칙 문서 1개 생성
작업을 2단계로 분해
같은 작업 재실행 후 재작성 횟수 비교

복붙 실행문

[고정]
- 역할:
- 금지:
- 출력 계약:
 
[가변]
- 오늘 데이터:
- 최신 링크:
- 이번 요청 조건:
 
[실행]
- 1단계(목차/구조)
- 2단계(본문/검수)

성공 판정

재작성 횟수가 줄었는가
출력 형식 수정이 줄었는가
품질 하락 없이 비용이 안정됐는가

운영 팁

비용 최적화는 “모델 다운그레이드”가 아니다
먼저 입력 구조를 바꾸고, 그 다음 모델을 조정
KPI를 2주 단위로 보면 효과가 선명하다

참고 자료

Anthropic, Effective context engineering for AI agents
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Manus, Lessons from Building Manus
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
Packer et al., MemGPT
https://arxiv.org/abs/2310.08560

🧠 칠판 치트시트

비용 최적화는 품질 포기가 아니다

핵심은 “적게 넣기”가 아니라 “맞게 나누기”

고정/가변 분리만 해도 체감이 달라진다

07. 실무 템플릿 묶음

일하는 ai

탐색기