모델이 나빠서 결과가 흔들린다고 느끼는 순간이 많습니다. 하지만 실무에서 반복 관찰되는 원인은 대부분 입력 환경(컨텍스트) 문제입니다. 이 편에서는 재현율이 높은 4가지 실패패턴을 증상 → 재현 조건 → 영향 → 즉시 수정 순서로 정리합니다.
AI 활용 안내: 이 문서는 생성형 AI 보조를 받아 작성되었습니다.
이 글에서 답하는 질문
- 질문: AI 결과가 이상할 때 무엇부터 의심해야 할까?
- 한 줄 답: 모델 탓을 하기 전에 오염, 산만, 혼동, 충돌 중 어떤 컨텍스트 실패인지 먼저 분류해야 합니다.
- 다음 글로 넘어갈 기준: 실패한 산출물 1개에 패턴 이름을 붙이고 첫 조치 1개를 고를 수 있으면 됩니다.
flowchart TD A[결과가 불안정하다] --> B{어떤 증상인가} B --> C[오염: 사실 오류] B --> D[산만: 결론 흐림] B --> E[혼동: 용어 불일치] B --> F[충돌: 지시 상충] C --> C2[출처/버전 고정] D --> D2[필수·선택·제외 분리] E --> E2[용어 사전 통일] F --> F2[우선순위 계약]
패턴 1) 오염 (Contamination)
증상
- 문장은 유창하지만 사실이 틀림
- 근거 링크와 결론이 어긋남
재현 조건
- 오래된 자료 + 최신 자료를 섞어 넣음
- 2차 요약 글만 참고하고 원문 미확인
영향
- 보고서 신뢰도 하락
- 검수 비용 급증
즉시 수정
- 1차 출처만 2~3개로 제한
- 출처마다 날짜/버전 표기
- 불확실 내용은 “확인 필요” 문구 강제
패턴 2) 산만 (Overload)
증상
- 답변 길이는 긴데 핵심 결론이 안 보임
- 한 문서에 메시지가 너무 많음
재현 조건
- 참고자료를 무제한으로 투입
- 턴 목표를 2개 이상 혼합
영향
- 의사결정 지연
- 재작성 반복
즉시 수정
- 입력을
필수/선택/제외로 분리 - 이번 턴 목표를 1개로 제한
- 출력 형식(길이/섹션)을 선명하게 계약
패턴 3) 혼동 (Misalignment)
증상
- 같은 단어를 서로 다르게 해석
- 코드/문서/회의 용어가 엇갈림
재현 조건
- 팀 용어 표준이 없음
- 모호한 표현(예: “최적화”, “개선”) 과다
영향
- 요구사항 오해
- 잘못된 구현 및 QA 반복
즉시 수정
- 용어 사전 1페이지 운영
- 핵심 용어마다 예시 1개씩 추가
- 모호 단어를 금지어로 지정
패턴 4) 충돌 (Conflict)
증상
- “짧고 자세하게” 같은 상충 지시
- 결과가 기준마다 왔다 갔다 함
재현 조건
- 우선순위 규칙 없음
- 금지사항과 목표가 같은 층위로 혼재
영향
- 결과 일관성 붕괴
- 팀 내 해석 충돌
즉시 수정
- 우선순위 선언: 정확성 > 재현성 > 속도 > 길이
- 금지사항은 별도 줄로 분리
- 충돌 감지 시 재질문 규칙 추가
4패턴 진단표 (현장용)
| 증상 | 가장 의심할 패턴 | 첫 조치 |
|---|---|---|
| 사실이 자주 틀림 | 오염 | 출처 3개 제한 + 날짜 표기 |
| 길기만 하고 결론 없음 | 산만 | 목표 1개 + 출력 섹션 고정 |
| 팀마다 해석 다름 | 혼동 | 용어 사전 + 예시 문장 |
| 결과 기준이 매번 바뀜 | 충돌 | 우선순위/금지 분리 |
20분 실습 (실패 디버깅)
도구
- 메모 에디터
- 최근 실패 작업 1건
입력 자료
- 원래 요청문
- 산출물
- 사용한 근거 링크 목록
실행 절차
- 아래 4항목 중 문제 패턴 1개 선택
- 해당 패턴 수정 규칙 2개 적용
- 같은 작업 재실행
- 전/후 차이를 5줄로 기록
복붙 실행문
[진단]
- 현재 패턴: 오염/산만/혼동/충돌 중 1개
[수정]
- 즉시 수정 규칙 2개 적용
[재실행]
- 같은 목표/같은 출력 형식으로 다시 실행
[비교]
- 정확성/간결성/재작업량 3항목 점검성공 판정
- 재실행 결과에서 오류 또는 재작업 포인트가 줄었는가
- 다음에도 재현 가능한 규칙이 2개 남았는가
운영 팁 (실수 재발 방지)
- 한 번에 여러 패턴을 동시에 고치지 말 것
- 패턴 이름을 로그에 명시할 것
- 수정 규칙은 문장보다 체크리스트 형태가 유지에 유리
현장 예시: 같은 “품질 저하”도 원인이 다르다
주간 동향 보고서가 마음에 들지 않는다고 해봅니다. 표면적으로는 모두 “보고서 품질이 낮다”로 보이지만, 실제 처방은 다릅니다.
- 오래된 기사와 최신 자료를 섞어 사실이 틀리면 오염입니다.
- 자료를 너무 많이 넣어 결론이 흐리면 산만입니다.
- “에이전트”, “자동화”, “워크플로우”의 뜻이 글마다 다르면 혼동입니다.
- “짧게 쓰라”와 “모든 근거를 넣어라”가 동시에 있으면 충돌입니다.
진단 이름을 붙이면 수정 지시가 “다시 잘 써줘”에서 “자료 날짜를 고정하고, 제외 자료를 빼자”로 바뀝니다.
오진 방지 가이드
- 결과가 길다고 무조건 산만은 아닙니다. 핵심 결론과 근거가 살아 있으면 길이는 출력 계약 문제일 수 있습니다.
- 사실 오류가 있다고 무조건 모델 환각은 아닙니다. 입력 자료 자체가 오래됐거나 서로 충돌했는지 먼저 봅니다.
- 팀원마다 말이 다르면 AI 문제가 아니라 용어 사전 부재일 가능성이 큽니다.
- 한 번에 네 패턴을 모두 고치려 하면 원인 추적이 어려워집니다.
오늘 바로 적용 체크리스트
- 실패 산출물 1개를 골랐다.
- 오염/산만/혼동/충돌 중 1개만 우선 진단했다.
- 증상과 재현 조건을 각각 1문장으로 썼다.
- 즉시 수정 규칙 2개를 정했다.
- 재실행 후 전/후 차이를 기록했다.
다음 행동
- 최근 실패 작업 1건에 패턴 이름을 붙입니다.
- 같은 실패가 다시 나왔을 때 쓸 수정 규칙을 템플릿에 남깁니다.
- 다음 글 04-전략-4가지에서 패턴별 처방을 전략으로 바꿉니다.
참고 자료
- Anthropic, Effective context engineering for AI agents
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents - Liu et al., Lost in the Middle
https://arxiv.org/abs/2307.03172 - Yao et al., ReAct
https://arxiv.org/abs/2210.03629 - Shinn et al., Reflexion
https://arxiv.org/abs/2303.11366
🧠 칠판 치트시트
- 문제를 많이 찾는 것보다, 한 번에 1개 패턴만 고쳐라
- 실패패턴 이름을 붙이면 팀 운영이 빨라진다
- 모델 교체보다 입력환경 정리가 먼저다