Agent ํ์ง์ โ๋๋โ์ผ๋ก ํ๊ฐํ๋ฉด ๊ฐ์ ์ด ๋ฉ์ถฅ๋๋ค. Evals๋ ์ง๋ฌธ ์งํฉ, ํ๊ฐ ๊ธฐ์ค, ๋ฆฌํฌํธ๋ฅผ ํตํด ๊ฐ์ ์ ์ซ์๋ก ํ์ธํ๋ ๋ฃจํ์ ๋๋ค.
AI ํ์ฉ ์๋ด: ์ด ๋ฌธ์๋ ์์ฑํ AI๋ฅผ ํ์ฉํด ์์ฑํ์ผ๋ฉฐ, Pydantic AI ๊ณต์ ๋ฌธ์๋ฅผ 1์ฐจ ์ถ์ฒ๋ก ๊ฒํ ํด ์ ๋ฆฌํ์ต๋๋ค.
๊ณต์๋ฌธ์ ํ๋ฆ ์ ๊ฒ (๊ฐ์ ๋ณด์)
- ํ๋ฆ: Evals ๋ฐ์ดํฐ ๋ชจ๋ธ(dataset/case) โ ์คํ ์คํ(experiment) โ ํ๊ฐ๊ธฐ(built-in/custom/LLM judge) โ ๋ฆฌํฌํธ/๋ฉํธ๋ฆญ ํด์.
- ์ด๋ฒ ํธ์์ ๋น ์ง๋ฉด ์ ๋๋ ํฌ์ธํธ:
- โํ ๋ฒ์ ์ ์โ๊ฐ ์๋๋ผ dataset ๊ธฐ๋ฐ ๋ฐ๋ณต ์คํ ๊ตฌ์กฐ๋ฅผ ๋จผ์ ์ค๋ช ํ๋ค.
- evaluator๋ฅผ case-level / dataset-level๋ก ๋๋ ์๊ฐํ๋ค.
- ์ฌ์๋ ์ ๋ต๊ณผ ๋ก๊ทธํ์ด์ด ์ฐ๋์ ํ์ง ๋ฃจํ์ ํฌํจํ๋ค.
- ๊ณต์ ๋ฌธ์ ์ฒดํฌ ๋งํฌ:
์ด๋ค ์งํ๋ถํฐ ๋ณผ๊น
์ด๊ธฐ์๋ ๋ณต์กํ ์งํ๋ณด๋ค ์ธ ๊ฐ์ง๋ฉด ์ถฉ๋ถํฉ๋๋ค.
- ์ ๋ต/์๊ตฌ์กฐ๊ฑด ์ถฉ์กฑ๋ฅ
- ํ์ ์ค์์จ(๊ตฌ์กฐํ ์ถ๋ ฅ ์ผ์น์จ)
- ํ๊ท ์ฒ๋ฆฌ ์๊ฐ
๊ณต์ ๋ฌธ์:
- Evals overview: https://ai.pydantic.dev/evals/
- Quick start: https://ai.pydantic.dev/evals/quick-start/
flowchart TD A[ํ๊ฐ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ] --> B[์์ด์ ํธ ์คํ] B --> C[ํ๊ฐ๊ธฐ ์ ์ฉ] C --> D[๋ฆฌํฌํธ ์์ฑ] D --> E[๊ฐ์ ์ ๋ฐ์] E --> A
๋ฏธ๋ ์ฌ๋ก A: ๋ชจ๋ธ ์ ๊ทธ๋ ์ด๋ ํ ํ์ง์ด ์ข์์ก๋์ง ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ
์ฒด๊ฐ์ ์ข์ ๋ณด์์ง๋ง ์ค์ ๋ก๋ ํ์ ์ค์์จ์ด ๋ด๋ ค๊ฐ์ต๋๋ค. ์๋ eval๋ก ๋น๊ตํ๋ ์ ๊ทธ๋ ์ด๋ ์ ์ ๊ณ ์ณ์ผ ํ ์ ์ด ๋ณด์์ต๋๋ค.
๋ฏธ๋ ์ฌ๋ก B: ํ๋ง๋ค ํ๊ฐ ๊ธฐ์ค์ด ๋ฌ๋ผ ๋ ผ์์ด ๊ธธ์ด์ง ๊ฒฝ์ฐ
ํ๊ฐ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ๊ณต์ ์์ฐ์ผ๋ก ๋ง๋ค๊ณ , ๋์ผ ๋ฆฌํฌํธ ํฌ๋งท์ ์ฌ์ฉํ๋ ์์ฌ๊ฒฐ์ ์ด ๋นจ๋ผ์ก์ต๋๋ค.
์ค๋ฌด ์ ์ฉ ์์
- ํต์ฌ ์ ๋ฌด ์ง๋ฌธ 20๊ฐ๋ก ๋ฏธ๋ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ
- ์ ๋ต ๊ธฐ์ค ๋๋ ํฉ๊ฒฉ ์กฐ๊ฑด์ ๋ฌธ์ํ
- ์ฃผ 1ํ ์๋ eval ์คํ
- ํ๋ฝ ์งํ 1๊ฐ๋ง ์ง์ค ๊ฐ์
์ฑ๊ณต ํ์ :
- ์ฑ๋ฅ ๋ ผ์๊ฐ ๊ฐ๊ฐ์ด ์๋๋ผ ์ซ์๋ก ์ด๋ค์ง๋ค
- ๋ฐฐํฌ ์ ๋น๊ต ๋ฆฌํฌํธ๊ฐ ๋จ๋๋ค
- ๋ฌธ์ ์ ํ๋ณ ๊ฐ์ ์ฐ์ ์์๊ฐ ๋ช ํํ๋ค