🐍09. Evals: 성능 검증과 자동 평가

Agent 품질을 “느낌”으로 평가하면 개선이 멈춥니다. Evals는 질문 집합, 평가 기준, 리포트를 통해 개선을 숫자로 확인하는 루프입니다.

AI 활용 안내: 이 문서는 생성형 AI를 활용해 작성했으며, Pydantic AI 공식 문서를 1차 출처로 검토해 정리했습니다.

공식문서 흐름 점검 (개요 보완)

흐름: Evals 데이터 모델(dataset/case) → 실험 실행(experiment) → 평가기(built-in/custom/LLM judge) → 리포트/메트릭 해석.
이번 편에서 빠지면 안 되는 포인트:
- “한 번의 점수”가 아니라 dataset 기반 반복 실험 구조를 먼저 설명한다.
- evaluator를 case-level / dataset-level로 나눠 소개한다.
- 재시도 전략과 로그파이어 연동을 품질 루프에 포함한다.
공식 문서 체크 링크:

초기에는 복잡한 지표보다 세 가지면 충분합니다.

공식 문서:

flowchart TD
  A[평가 데이터셋 구성] --> B[에이전트 실행]
  B --> C[평가기 적용]
  C --> D[리포트 생성]
  D --> E[개선안 반영]
  E --> A

체감상 좋아 보였지만 실제로는 형식 준수율이 내려갔습니다. 자동 eval로 비교하니 업그레이드 전에 고쳐야 할 점이 보였습니다.

평가기와 데이터셋을 공유 자산으로 만들고, 동일 리포트 포맷을 사용하니 의사결정이 빨라졌습니다.

성공 판정: