Agent ํ’ˆ์งˆ์„ โ€œ๋А๋‚Œโ€์œผ๋กœ ํ‰๊ฐ€ํ•˜๋ฉด ๊ฐœ์„ ์ด ๋ฉˆ์ถฅ๋‹ˆ๋‹ค. Evals๋Š” ์งˆ๋ฌธ ์ง‘ํ•ฉ, ํ‰๊ฐ€ ๊ธฐ์ค€, ๋ฆฌํฌํŠธ๋ฅผ ํ†ตํ•ด ๊ฐœ์„ ์„ ์ˆซ์ž๋กœ ํ™•์ธํ•˜๋Š” ๋ฃจํ”„์ž…๋‹ˆ๋‹ค.

AI ํ™œ์šฉ ์•ˆ๋‚ด: ์ด ๋ฌธ์„œ๋Š” ์ƒ์„ฑํ˜• AI๋ฅผ ํ™œ์šฉํ•ด ์ž‘์„ฑํ–ˆ์œผ๋ฉฐ, Pydantic AI ๊ณต์‹ ๋ฌธ์„œ๋ฅผ 1์ฐจ ์ถœ์ฒ˜๋กœ ๊ฒ€ํ† ํ•ด ์ •๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ณต์‹๋ฌธ์„œ ํ๋ฆ„ ์ ๊ฒ€ (๊ฐœ์š” ๋ณด์™„)

  • ํ๋ฆ„: Evals ๋ฐ์ดํ„ฐ ๋ชจ๋ธ(dataset/case) โ†’ ์‹คํ—˜ ์‹คํ–‰(experiment) โ†’ ํ‰๊ฐ€๊ธฐ(built-in/custom/LLM judge) โ†’ ๋ฆฌํฌํŠธ/๋ฉ”ํŠธ๋ฆญ ํ•ด์„.
  • ์ด๋ฒˆ ํŽธ์—์„œ ๋น ์ง€๋ฉด ์•ˆ ๋˜๋Š” ํฌ์ธํŠธ:
    • โ€œํ•œ ๋ฒˆ์˜ ์ ์ˆ˜โ€๊ฐ€ ์•„๋‹ˆ๋ผ dataset ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ์‹คํ—˜ ๊ตฌ์กฐ๋ฅผ ๋จผ์ € ์„ค๋ช…ํ•œ๋‹ค.
    • evaluator๋ฅผ case-level / dataset-level๋กœ ๋‚˜๋ˆ  ์†Œ๊ฐœํ•œ๋‹ค.
    • ์žฌ์‹œ๋„ ์ „๋žต๊ณผ ๋กœ๊ทธํŒŒ์ด์–ด ์—ฐ๋™์„ ํ’ˆ์งˆ ๋ฃจํ”„์— ํฌํ•จํ•œ๋‹ค.
  • ๊ณต์‹ ๋ฌธ์„œ ์ฒดํฌ ๋งํฌ:

์–ด๋–ค ์ง€ํ‘œ๋ถ€ํ„ฐ ๋ณผ๊นŒ

์ดˆ๊ธฐ์—๋Š” ๋ณต์žกํ•œ ์ง€ํ‘œ๋ณด๋‹ค ์„ธ ๊ฐ€์ง€๋ฉด ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

  • ์ •๋‹ต/์š”๊ตฌ์กฐ๊ฑด ์ถฉ์กฑ๋ฅ 
  • ํ˜•์‹ ์ค€์ˆ˜์œจ(๊ตฌ์กฐํ™” ์ถœ๋ ฅ ์ผ์น˜์œจ)
  • ํ‰๊ท  ์ฒ˜๋ฆฌ ์‹œ๊ฐ„

๊ณต์‹ ๋ฌธ์„œ:

flowchart TD
  A[ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ] --> B[์—์ด์ „ํŠธ ์‹คํ–‰]
  B --> C[ํ‰๊ฐ€๊ธฐ ์ ์šฉ]
  C --> D[๋ฆฌํฌํŠธ ์ƒ์„ฑ]
  D --> E[๊ฐœ์„ ์•ˆ ๋ฐ˜์˜]
  E --> A

๋ฏธ๋‹ˆ ์‚ฌ๋ก€ A: ๋ชจ๋ธ ์—…๊ทธ๋ ˆ์ด๋“œ ํ›„ ํ’ˆ์งˆ์ด ์ข‹์•„์กŒ๋Š”์ง€ ๋ชจ๋ฅด๋Š” ๊ฒฝ์šฐ

์ฒด๊ฐ์ƒ ์ข‹์•„ ๋ณด์˜€์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” ํ˜•์‹ ์ค€์ˆ˜์œจ์ด ๋‚ด๋ ค๊ฐ”์Šต๋‹ˆ๋‹ค. ์ž๋™ eval๋กœ ๋น„๊ตํ•˜๋‹ˆ ์—…๊ทธ๋ ˆ์ด๋“œ ์ „์— ๊ณ ์ณ์•ผ ํ•  ์ ์ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๋ฏธ๋‹ˆ ์‚ฌ๋ก€ B: ํŒ€๋งˆ๋‹ค ํ‰๊ฐ€ ๊ธฐ์ค€์ด ๋‹ฌ๋ผ ๋…ผ์Ÿ์ด ๊ธธ์–ด์ง„ ๊ฒฝ์šฐ

ํ‰๊ฐ€๊ธฐ์™€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต์œ  ์ž์‚ฐ์œผ๋กœ ๋งŒ๋“ค๊ณ , ๋™์ผ ๋ฆฌํฌํŠธ ํฌ๋งท์„ ์‚ฌ์šฉํ•˜๋‹ˆ ์˜์‚ฌ๊ฒฐ์ •์ด ๋นจ๋ผ์กŒ์Šต๋‹ˆ๋‹ค.

์‹ค๋ฌด ์ ์šฉ ์ˆœ์„œ

  1. ํ•ต์‹ฌ ์—…๋ฌด ์งˆ๋ฌธ 20๊ฐœ๋กœ ๋ฏธ๋‹ˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ
  2. ์ •๋‹ต ๊ธฐ์ค€ ๋˜๋Š” ํ•ฉ๊ฒฉ ์กฐ๊ฑด์„ ๋ฌธ์„œํ™”
  3. ์ฃผ 1ํšŒ ์ž๋™ eval ์‹คํ–‰
  4. ํ•˜๋ฝ ์ง€ํ‘œ 1๊ฐœ๋งŒ ์ง‘์ค‘ ๊ฐœ์„ 

์„ฑ๊ณต ํŒ์ •:

  • ์„ฑ๋Šฅ ๋…ผ์˜๊ฐ€ ๊ฐ๊ฐ์ด ์•„๋‹ˆ๋ผ ์ˆซ์ž๋กœ ์ด๋ค„์ง„๋‹ค
  • ๋ฐฐํฌ ์ „ ๋น„๊ต ๋ฆฌํฌํŠธ๊ฐ€ ๋‚จ๋Š”๋‹ค
  • ๋ฌธ์ œ ์œ ํ˜•๋ณ„ ๊ฐœ์„  ์šฐ์„ ์ˆœ์œ„๊ฐ€ ๋ช…ํ™•ํ•˜๋‹ค

๋‹ค์Œ ๊ธ€