01. 프롬프트 한계

많은 사람이 AI를 쓸 때 “질문 문장”부터 고칩니다. 하지만 에이전트형 작업(여러 단계 실행)으로 갈수록 성능을 좌우하는 건 문장보다 컨텍스트 설계입니다.

AI 활용 안내: 이 문서는 생성형 AI 보조를 받아 작성되었습니다.

이 글에서 답하는 질문

질문: 왜 프롬프트를 계속 고쳐도 실무 결과가 안정되지 않을까?
한 줄 답: 프롬프트는 방향을 주지만, 실제 작업 품질은 자료·기억·도구·검증 기준이 함께 맞을 때 안정됩니다.
다음 글로 넘어갈 기준: “문장 문제”와 “컨텍스트 문제”를 구분해 설명할 수 있으면 됩니다.

한 줄 결론

프롬프트는 방향 지시이고, 컨텍스트는 작업 환경입니다. 방향이 맞아도 환경이 엉키면 결과는 흔들립니다.

프롬프트 중심 접근이 막히는 4가지 이유

1) 작업이 단발성에서 루프형으로 바뀜

에이전트는 한 번 답하고 끝나지 않습니다.

계획
도구 호출
결과 관측
다음 행동 결정

이 과정이 반복되면서 “이전 턴에서 무엇을 합의했는가”가 중요해집니다. 즉, 문장 한 줄보다 누적 맥락 관리가 성능을 좌우합니다.

2) 문맥 길이가 늘수록 정보 배치 문제가 커짐

긴 컨텍스트를 다룰 수 있어도, 핵심 정보 위치에 따라 회수율이 달라집니다. 특히 중간 구간 정보가 묻히는 현상은 실무에서도 자주 관찰됩니다.

3) 정보량 증가 ≠ 품질 상승

자료를 많이 넣는다고 자동으로 좋아지지 않습니다. 오히려 충돌 지시·불필요 배경·중복 근거가 늘어 품질이 떨어질 수 있습니다.

4) 출력 계약 미정으로 재작업 증가

결과물 형식(길이, 섹션, 톤)을 선명하게 정하지 않으면, 내용은 맞아도 실무에서 바로 못 쓰는 결과가 나옵니다.

flowchart LR
  A[Prompt 중심: 질문 문장 최적화] --> B[단발성 작업에서 효과]
  C[Context 중심: 목표·자료·도구·기록 설계] --> D[다단계 작업에서 안정]
  B -.작업 규모 증가.-> E[재현성 하락]
  D --> F[품질/속도/비용 동시 개선]

같은 요청, 다른 컨텍스트

케이스 A: 보고서 작성

Prompt 중심: “AI 시장 보고서 써줘.”
Context 중심:
- 독자: 경영진
- 목적: 의사결정
- 포함: 시장/리스크/액션
- 제외: 기술 상세
- 근거: 공식 링크 3개
- 산출물: 1페이지

차이: 문장은 비슷해도, Context 중심은 회의에서 바로 쓰기 쉽습니다.

케이스 B: 고객 메일 작성

Prompt 중심: “정중하게 메일 써줘.”
Context 중심:
- 역할: 마케팅 팀장
- 목적: 일정 재조율
- 배경: 지난 합의 2줄
- 금지: 공격적 표현/과한 약속
- 산출물: 제목 2안 + 본문 1안

차이: 문장 품질보다 실무 적합성이 크게 개선됩니다.

실무 디버깅 프레임 (3문장)

결과가 아쉬울 때, 문장을 고치기 전에 아래 3개를 먼저 점검하세요.

목표가 1개로 고정되어 있는가?
근거 자료가 최신·신뢰 가능한가?
출력 계약이 명확한가?

25분 실습: Prompt vs Context A/B 테스트

도구

메모 앱
동일 작업 1개(보고서/메일/기획 중 택1)

입력 자료

기존 요청문
참고 링크 2~3개

실행

기존 요청문으로 실행 (A)
아래 템플릿으로 재작성 후 실행 (B)

[목표] 이번 턴에서 끝내야 할 결과 1줄
[근거] 사용할 자료 2~3개
[제약] 금지/제외 조건 3개
[출력] 길이·형식·섹션

A/B 결과를 아래 기준으로 비교

정확성
재작업량
실행 가능성

성공 판정

B가 A보다 수정 횟수가 적은가
B 결과가 즉시 전달 가능한가
다음에도 재현 가능한가

많이 하는 오해 3가지

오해 1: “좋은 프롬프트 하나만 만들면 끝”
- 현실: 작업이 길어지면 맥락 관리가 핵심
오해 2: “길게 쓰면 무조건 좋다”
- 현실: 핵심 대비 잡음 비율이 중요
오해 3: “모델 성능이 전부다”
- 현실: 같은 모델도 컨텍스트 설계에 따라 결과 차이 큼

현장 예시: 문장 튜닝만 반복하는 상황

마케팅 카피를 만들 때 “더 전문적으로”, “더 짧게”, “더 설득력 있게” 같은 표현만 계속 바꾸면 출력 톤은 조금 달라질 수 있습니다. 하지만 아래 정보가 없으면 최종 품질은 여전히 흔들립니다.

독자: 신규 고객인지 기존 고객인지
근거: 어떤 제품 기능과 수치를 써도 되는지
금지: 법무 검토 전이라 피해야 할 표현은 무엇인지
출력: 광고 문안인지 랜딩페이지 섹션인지

즉, 문제는 “좋은 표현”이 아니라 작업 조건의 부재일 수 있습니다.

실패/오해 방지

오해: 프롬프트 라이브러리 하나만 있으면 모든 작업이 안정된다.
교정: 라이브러리는 출발점이고, 작업마다 근거·제약·출력 계약을 붙여야 합니다.
오해: 긴 프롬프트는 정교한 프롬프트다.
교정: 긴 요청문도 핵심 자료 위치가 나쁘거나 서로 충돌하면 성능이 떨어집니다.
오해: 모델을 올리면 컨텍스트 문제도 자동 해결된다.
교정: 좋은 모델도 오래된 자료, 충돌 지시, 모호한 완료 기준에는 취약합니다.

오늘 바로 적용 체크리스트

현재 요청문에서 목표가 하나인지 확인했다.
근거 자료의 날짜와 출처를 표시했다.
포함/제외 조건을 분리했다.
출력 형식과 평가 기준을 요청 전에 적었다.
“문장 수정” 전에 “컨텍스트 수정”을 먼저 시도했다.

다음 행동

자주 쓰는 프롬프트 1개를 골라 목표/근거/제약/출력 구조로 재작성합니다.
기존 결과와 재작성 결과의 재작업 포인트를 비교합니다.
다음 글 02-컨텍스트-7요소에서 이 구조를 7요소로 확장합니다.

참고 자료

Anthropic, Effective context engineering for AI agents
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Yao et al., ReAct
https://arxiv.org/abs/2210.03629
Schick et al., Toolformer
https://arxiv.org/abs/2302.04761
Liu et al., Lost in the Middle
https://arxiv.org/abs/2307.03172

🧠 칠판 치트시트

프롬프트는 점, 컨텍스트는 선이다

선이 끊기면 작업은 흔들린다

질문 최적화보다 작업 환경 최적화가 오래 간다

02-컨텍스트-7요소

일하는 ai

탐색기