Agent νμ§μ βλλβμΌλ‘ νκ°νλ©΄ κ°μ μ΄ λ©μΆ₯λλ€. Evalsλ μ§λ¬Έ μ§ν©, νκ° κΈ°μ€, 리ν¬νΈλ₯Ό ν΅ν΄ κ°μ μ μ«μλ‘ νμΈνλ 루νμ λλ€.
AI νμ© μλ΄: μ΄ λ¬Έμλ μμ±ν AIλ₯Ό νμ©ν΄ μμ±νμΌλ©°, Pydantic AI 곡μ λ¬Έμλ₯Ό 1μ°¨ μΆμ²λ‘ κ²ν ν΄ μ 리νμ΅λλ€.
곡μλ¬Έμ νλ¦ μ κ² (κ°μ 보μ)
- νλ¦: Evals λ°μ΄ν° λͺ¨λΈ(dataset/case) β μ€ν μ€ν(experiment) β νκ°κΈ°(built-in/custom/LLM judge) β 리ν¬νΈ/λ©νΈλ¦ ν΄μ.
- μ΄λ² νΈμμ λΉ μ§λ©΄ μ λλ ν¬μΈνΈ:
- βν λ²μ μ μβκ° μλλΌ dataset κΈ°λ° λ°λ³΅ μ€ν ꡬ쑰λ₯Ό λ¨Όμ μ€λͺ νλ€.
- evaluatorλ₯Ό case-level / dataset-levelλ‘ λλ μκ°νλ€.
- μ¬μλ μ λ΅κ³Ό λ‘κ·Ένμ΄μ΄ μ°λμ νμ§ λ£¨νμ ν¬ν¨νλ€.
- 곡μ λ¬Έμ μ²΄ν¬ λ§ν¬:
μ΄λ€ μ§νλΆν° λ³ΌκΉ
μ΄κΈ°μλ 볡μ‘ν μ§νλ³΄λ€ μΈ κ°μ§λ©΄ μΆ©λΆν©λλ€.
- μ λ΅/μꡬ쑰건 μΆ©μ‘±λ₯
- νμ μ€μμ¨(ꡬ쑰ν μΆλ ₯ μΌμΉμ¨)
- νκ· μ²λ¦¬ μκ°
곡μ λ¬Έμ:
- Evals overview: https://ai.pydantic.dev/evals/
- Quick start: https://ai.pydantic.dev/evals/quick-start/
flowchart TD A[νκ° λ°μ΄ν°μ ꡬμ±] --> B[μμ΄μ νΈ μ€ν] B --> C[νκ°κΈ° μ μ©] C --> D[리ν¬νΈ μμ±] D --> E[κ°μ μ λ°μ] E --> A
λ―Έλ μ¬λ‘ A: λͺ¨λΈ μ κ·Έλ μ΄λ ν νμ§μ΄ μ’μμ‘λμ§ λͺ¨λ₯΄λ κ²½μ°
체κ°μ μ’μ 보μμ§λ§ μ€μ λ‘λ νμ μ€μμ¨μ΄ λ΄λ €κ°μ΅λλ€. μλ evalλ‘ λΉκ΅νλ μ κ·Έλ μ΄λ μ μ κ³ μ³μΌ ν μ μ΄ λ³΄μμ΅λλ€.
λ―Έλ μ¬λ‘ B: νλ§λ€ νκ° κΈ°μ€μ΄ λ¬λΌ λ Όμμ΄ κΈΈμ΄μ§ κ²½μ°
νκ°κΈ°μ λ°μ΄ν°μ μ 곡μ μμ°μΌλ‘ λ§λ€κ³ , λμΌ λ¦¬ν¬νΈ ν¬λ§·μ μ¬μ©νλ μμ¬κ²°μ μ΄ λΉ¨λΌμ‘μ΅λλ€.
μ€λ¬΄ μ μ© μμ
- ν΅μ¬ μ 무 μ§λ¬Έ 20κ°λ‘ λ―Έλ λ°μ΄ν°μ ꡬμ±
- μ λ΅ κΈ°μ€ λλ ν©κ²© 쑰건μ λ¬Έμν
- μ£Ό 1ν μλ eval μ€ν
- νλ½ μ§ν 1κ°λ§ μ§μ€ κ°μ
μ±κ³΅ νμ :
- μ±λ₯ λ Όμκ° κ°κ°μ΄ μλλΌ μ«μλ‘ μ΄λ€μ§λ€
- λ°°ν¬ μ λΉκ΅ 리ν¬νΈκ° λ¨λλ€
- λ¬Έμ μ νλ³ κ°μ μ°μ μμκ° λͺ ννλ€