ํ‰๊ฐ€: Evals๋กœ ํ’ˆ์งˆ ๋‹ซ๊ธฐ

ํ‰๊ฐ€๋Š” โ€œ์ข‹์•„ ๋ณด์ด๋Š” ๋‹ตโ€์„ ๊ณ ๋ฅด๋Š” ๊ณผ์ •์ด ์•„๋‹™๋‹ˆ๋‹ค. ๋ชฉํ‘œ๋Š” ๊ฐ™์€ ์ž…๋ ฅ์—์„œ ๊ฐ™์€ ์ˆ˜์ค€์˜ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋ฐ”๊พผ ๋’ค์— *ํ‡ดํ–‰(regression)*์ด ์ƒ๊ธฐ์ง€ ์•Š๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•œ ์ด์œ 

  • ์–ด๋–ค ๋‚ ์€ ์ž˜ ๋˜๊ณ  ์–ด๋–ค ๋‚ ์€ ์•ˆ ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธด๋‹ค
  • ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ–ˆ๋Š”๋ฐ ๊ธฐ์กด ๊ธฐ๋Šฅ์ด ์กฐ์šฉํžˆ ๊นจ์ง„๋‹ค
  • ์‚ฌ๋žŒ์ด ๋ณด๊ธฐ์—” ๊ดœ์ฐฎ์•„๋„ ๊ทœ์น™์€ ์–ด๊ธฐ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค

์‹œ์ž‘ ๋ฐฉ๋ฒ•

1) ์ž‘์€ ํ‰๊ฐ€์…‹๋ถ€ํ„ฐ

์ฒ˜์Œ๋ถ€ํ„ฐ ํฌ๊ณ  ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  • 10~20๊ฐœ ์ •๋„
  • ์ž˜ ๋˜๋Š” ์ผ€์ด์Šค
  • ์‹คํŒจ ์ผ€์ด์Šค
  • ๋ฐœ๋™๋˜๋ฉด ์•ˆ ๋˜๋Š” ์ผ€์ด์Šค

2) ๋‘ ์ข…๋ฅ˜์˜ ์ฒดํฌ๋ฅผ ์“ด๋‹ค

  • deterministic check: ํ™•์ • ๊ทœ์น™
  • rubric check: ์‚ฌ๋žŒ/๋ชจ๋ธ์ด ๋ณด๋Š” ์ •์„ฑ ๊ธฐ์ค€

๋‘˜ ์ค‘ ํ•˜๋‚˜๋งŒ ์“ฐ๋ฉด ๋นˆํ‹ˆ์ด ์ƒ๊น๋‹ˆ๋‹ค.

3) ๊ฒฐ๊ณผ๋ฅผ ์Šคํ‚ค๋งˆ๋กœ ๋‚จ๊ธด๋‹ค

์ ์ˆ˜์™€ ํŒ๋‹จ ์ด์œ ๋ฅผ ์ผ์ •ํ•œ ํ˜•์‹์œผ๋กœ ์ €์žฅํ•ด์•ผ ๋น„๊ต๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์ดˆ๋ณด์ž๊ฐ€ ๊ธฐ์–ตํ•  ๊ฒƒ

ํ‰๊ฐ€๋Š” ๋ฉ‹์ง„ ๋Œ€์‹œ๋ณด๋“œ๋ณด๋‹ค ํšŒ๊ท€๋ฅผ ๋นจ๋ฆฌ ์žก๋Š” ์Šต๊ด€์ด ๋” ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

ํ”ํ•œ ์‹ค์ˆ˜

  • ํ‰๊ฐ€์…‹์ด ๋„ˆ๋ฌด ํผ
  • ์‹คํŒจ ์ผ€์ด์Šค๊ฐ€ ์Œ“์ด์ง€ ์•Š์Œ
  • ๊ธฐ์ค€์ด ๋งค๋ฒˆ ๋ฐ”๋€œ
  • ๊ฒฐ๊ณผ๊ฐ€ ์ž์œ ๋ฌธ์žฅ์ด๋ผ ๋น„๊ต๊ฐ€ ์–ด๋ ค์›€

์ฒดํฌ๋ฆฌ์ŠคํŠธ

  • ์ž‘์€ ํ‰๊ฐ€์…‹์ด ์žˆ๋‹ค
  • ๊ทœ์น™ ์ฒดํฌ์™€ ์ •์„ฑ ์ฒดํฌ๋ฅผ ๋‚˜๋ˆด๋‹ค
  • ์‹คํŒจ ์ผ€์ด์Šค๋ฅผ ์ฆ‰์‹œ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค
  • ๋ฒ„์ „ ๊ฐ„ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค

๋‹ค์Œ ์ฝ๊ธฐ