08. OpenAI Prompt Caching 안 먹을 때, 20분 해결 루틴

분명 같은 작업을 반복하는데 응답 속도도 그대로고, 비용도 기대만큼 안 줄어들 때가 있습니다. 이럴 때 대부분은 모델 문제가 아니라 프롬프트 구조와 운영 습관 문제인 경우가 많습니다. Prompt Caching은 “켜면 자동으로 빨라지는 옵션”이 아니라, 앞부분(prefix)을 얼마나 안정적으로 재사용하게 설계했는지가 성패를 좌우합니다.

이 글은 캐싱이 잘 안 먹는 상황에서 바로 점검할 수 있는 실무형 문제해결 가이드입니다.

안내: 이 문서는 생성형 AI를 활용해 초안을 작성했고, 공개된 공식 자료를 교차 확인해 실무형으로 정리했습니다.

flowchart LR
A[캐시 효과 미미] --> B[prefix 흔들림 점검]
B --> C[cache key/보존 전략 점검]
C --> D[metrics 점검]
D --> E[20분 수정 루틴]
E --> F[속도/비용 개선 확인]

🧠 칠판 치트시트

캐시는 “같은 앞부분”이 반복될 때 강하게 먹는다

시스템 규칙/예시는 앞, 사용자별 값은 뒤

cache key를 업무별로 분리하지 않으면 추적이 어려워진다

cached_tokens를 안 보면 최적화가 아니라 추정이다

템플릿 버전 관리가 곧 비용 관리다

먼저 확인할 핵심 3가지

1) prefix가 매 요청마다 바뀌고 있지 않은가

겉보기엔 같은 템플릿이라도, 앞부분 문장 순서나 날짜/사용자값이 섞여 있으면 캐시 재사용률이 떨어집니다.

자주 터지는 패턴:

시스템 지시문 문구를 매번 조금씩 수정
예시 블록 순서가 요청마다 달라짐
사용자 데이터가 프롬프트 상단에 먼저 들어감

공식 가이드:

https://developers.openai.com/api/docs/guides/prompt-caching

2) cache key를 업무 단위로 분리했는가

고객 응대, 주간보고, 요약 작업을 같은 key로 섞으면 성능 비교가 어렵고, 개선 포인트도 흐려집니다.

실무 권장:

ops_followup_v1
ops_weekly_report_v1
ops_summary_v1

API 레퍼런스:

https://platform.openai.com/docs/api-reference/responses/create#responses-create-prompt_cache_key

3) 캐시 효과를 숫자로 보고 있는가

체감만으로는 개선이 누적되지 않습니다. 최소 3개는 고정 추적하는 게 좋습니다.

cached_tokens
p95 latency
입력 비용(캐시 적용 포함)

가격 기준 확인:

https://openai.com/api/pricing/

미니 사례 2가지

사례 A) 고객사 follow-up 자동화

같은 업무인데 담당자 이름/날짜를 프롬프트 맨 앞에 넣어 매번 prefix가 달랐습니다. 공통 지침을 앞에 고정하고 사용자별 값을 뒤로 이동하자 캐시 재사용률이 개선됐고, 응답 지연 편차도 줄었습니다.

사례 B) 주간보고 생성

템플릿 버전이 팀원마다 달라 캐싱 효과가 들쭉날쭉했습니다. 템플릿 버전(v1, v2)과 cache key를 같이 관리한 뒤, 비용 추세를 예측 가능하게 만들었습니다.

20분 해결 루틴

5분: 현재 프롬프트를 고정 블록과 변동 블록으로 분리
5분: 업무별 prompt_cache_key 명명 규칙 통일
5분: 주간 리포트에 cached_tokens/p95/input_cost 컬럼 추가
5분: 수정 전후 1일 비교(속도/비용) 기록

바로 복붙 가능한 점검 템플릿

역할: Prompt Caching 운영 점검자.
요청: 최근 24시간 요청을 기준으로
1) prefix 변동 원인 3개
2) cache key 혼선 여부
3) 비용/지연 개선 우선순위 3개
를 제시해줘.

점검 체크리스트

시스템 규칙/예시/툴 정의를 앞쪽에 고정했다
사용자별 데이터는 뒤쪽 블록으로 분리했다
워크플로우별 cache key를 분리했다
cached_tokens, p95, input cost를 함께 추적한다
템플릿 버전 정책을 문서화했다

일하는 ai

탐색기