Agent ν’ˆμ§ˆμ„ β€œλŠλ‚Œβ€μœΌλ‘œ ν‰κ°€ν•˜λ©΄ κ°œμ„ μ΄ 멈μΆ₯λ‹ˆλ‹€. EvalsλŠ” 질문 μ§‘ν•©, 평가 κΈ°μ€€, 리포트λ₯Ό 톡해 κ°œμ„ μ„ 숫자둜 ν™•μΈν•˜λŠ” λ£¨ν”„μž…λ‹ˆλ‹€.

AI ν™œμš© μ•ˆλ‚΄: 이 λ¬Έμ„œλŠ” μƒμ„±ν˜• AIλ₯Ό ν™œμš©ν•΄ μž‘μ„±ν–ˆμœΌλ©°, Pydantic AI 곡식 λ¬Έμ„œλ₯Ό 1μ°¨ 좜처둜 κ²€ν† ν•΄ μ •λ¦¬ν–ˆμŠ΅λ‹ˆλ‹€.

κ³΅μ‹λ¬Έμ„œ 흐름 점검 (κ°œμš” 보완)

  • 흐름: Evals 데이터 λͺ¨λΈ(dataset/case) β†’ μ‹€ν—˜ μ‹€ν–‰(experiment) β†’ 평가기(built-in/custom/LLM judge) β†’ 리포트/λ©”νŠΈλ¦­ 해석.
  • 이번 νŽΈμ—μ„œ λΉ μ§€λ©΄ μ•ˆ λ˜λŠ” 포인트:
    • β€œν•œ 번의 μ μˆ˜β€κ°€ μ•„λ‹ˆλΌ dataset 기반 반볡 μ‹€ν—˜ ꡬ쑰λ₯Ό λ¨Όμ € μ„€λͺ…ν•œλ‹€.
    • evaluatorλ₯Ό case-level / dataset-level둜 λ‚˜λˆ  μ†Œκ°œν•œλ‹€.
    • μž¬μ‹œλ„ μ „λž΅κ³Ό λ‘œκ·ΈνŒŒμ΄μ–΄ 연동을 ν’ˆμ§ˆ 루프에 ν¬ν•¨ν•œλ‹€.
  • 곡식 λ¬Έμ„œ 체크 링크:

μ–΄λ–€ μ§€ν‘œλΆ€ν„° 볼까

μ΄ˆκΈ°μ—λŠ” λ³΅μž‘ν•œ μ§€ν‘œλ³΄λ‹€ μ„Έ κ°€μ§€λ©΄ μΆ©λΆ„ν•©λ‹ˆλ‹€.

  • μ •λ‹΅/μš”κ΅¬μ‘°κ±΄ μΆ©μ‘±λ₯ 
  • ν˜•μ‹ μ€€μˆ˜μœ¨(ꡬ쑰화 좜λ ₯ 일치율)
  • 평균 처리 μ‹œκ°„

곡식 λ¬Έμ„œ:

flowchart TD
  A[평가 데이터셋 ꡬ성] --> B[μ—μ΄μ „νŠΈ μ‹€ν–‰]
  B --> C[평가기 적용]
  C --> D[리포트 생성]
  D --> E[κ°œμ„ μ•ˆ 반영]
  E --> A

λ―Έλ‹ˆ 사둀 A: λͺ¨λΈ μ—…κ·Έλ ˆμ΄λ“œ ν›„ ν’ˆμ§ˆμ΄ μ’‹μ•„μ‘ŒλŠ”μ§€ λͺ¨λ₯΄λŠ” 경우

체감상 μ’‹μ•„ λ³΄μ˜€μ§€λ§Œ μ‹€μ œλ‘œλŠ” ν˜•μ‹ μ€€μˆ˜μœ¨μ΄ λ‚΄λ €κ°”μŠ΅λ‹ˆλ‹€. μžλ™ eval둜 λΉ„κ΅ν•˜λ‹ˆ μ—…κ·Έλ ˆμ΄λ“œ 전에 고쳐야 ν•  점이 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

λ―Έλ‹ˆ 사둀 B: νŒ€λ§ˆλ‹€ 평가 기쀀이 달라 λ…ΌμŸμ΄ κΈΈμ–΄μ§„ 경우

평가기와 데이터셋을 곡유 μžμ‚°μœΌλ‘œ λ§Œλ“€κ³ , 동일 리포트 포맷을 μ‚¬μš©ν•˜λ‹ˆ μ˜μ‚¬κ²°μ •μ΄ λΉ¨λΌμ‘ŒμŠ΅λ‹ˆλ‹€.

싀무 적용 μˆœμ„œ

  1. 핡심 업무 질문 20개둜 λ―Έλ‹ˆ 데이터셋 ꡬ성
  2. μ •λ‹΅ κΈ°μ€€ λ˜λŠ” 합격 쑰건을 λ¬Έμ„œν™”
  3. μ£Ό 1회 μžλ™ eval μ‹€ν–‰
  4. ν•˜λ½ μ§€ν‘œ 1개만 집쀑 κ°œμ„ 

성곡 νŒμ •:

  • μ„±λŠ₯ λ…Όμ˜κ°€ 감각이 μ•„λ‹ˆλΌ 숫자둜 이뀄진닀
  • 배포 μ „ 비ꡐ λ¦¬ν¬νŠΈκ°€ λ‚¨λŠ”λ‹€
  • 문제 μœ ν˜•λ³„ κ°œμ„  μš°μ„ μˆœμœ„κ°€ λͺ…ν™•ν•˜λ‹€

λ‹€μŒ κΈ€