ํ๊ฐ: Evals๋ก ํ์ง ๋ซ๊ธฐ
ํ๊ฐ๋ โ์ข์ ๋ณด์ด๋ ๋ตโ์ ๊ณ ๋ฅด๋ ๊ณผ์ ์ด ์๋๋๋ค. ๋ชฉํ๋ ๊ฐ์ ์ ๋ ฅ์์ ๊ฐ์ ์์ค์ ํ์ง์ ์ ์งํ๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ฐ๊พผ ๋ค์ *ํดํ(regression)*์ด ์๊ธฐ์ง ์๋์ง ํ์ธํ๋ ๊ฒ์ ๋๋ค.
ํ๊ฐ๊ฐ ํ์ํ ์ด์
- ์ด๋ค ๋ ์ ์ ๋๊ณ ์ด๋ค ๋ ์ ์ ๋๋ ๋ฌธ์ ๊ฐ ์๊ธด๋ค
- ๊ธฐ๋ฅ์ ์ถ๊ฐํ๋๋ฐ ๊ธฐ์กด ๊ธฐ๋ฅ์ด ์กฐ์ฉํ ๊นจ์ง๋ค
- ์ฌ๋์ด ๋ณด๊ธฐ์ ๊ด์ฐฎ์๋ ๊ท์น์ ์ด๊ธฐ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค
์์ ๋ฐฉ๋ฒ
1) ์์ ํ๊ฐ์ ๋ถํฐ
์ฒ์๋ถํฐ ํฌ๊ณ ๋ณต์กํ๊ฒ ๋ง๋ค์ง ์์ต๋๋ค.
- 10~20๊ฐ ์ ๋
- ์ ๋๋ ์ผ์ด์ค
- ์คํจ ์ผ์ด์ค
- ๋ฐ๋๋๋ฉด ์ ๋๋ ์ผ์ด์ค
2) ๋ ์ข ๋ฅ์ ์ฒดํฌ๋ฅผ ์ด๋ค
- deterministic check: ํ์ ๊ท์น
- rubric check: ์ฌ๋/๋ชจ๋ธ์ด ๋ณด๋ ์ ์ฑ ๊ธฐ์ค
๋ ์ค ํ๋๋ง ์ฐ๋ฉด ๋นํ์ด ์๊น๋๋ค.
3) ๊ฒฐ๊ณผ๋ฅผ ์คํค๋ง๋ก ๋จ๊ธด๋ค
์ ์์ ํ๋จ ์ด์ ๋ฅผ ์ผ์ ํ ํ์์ผ๋ก ์ ์ฅํด์ผ ๋น๊ต๊ฐ ๋ฉ๋๋ค.
์ด๋ณด์๊ฐ ๊ธฐ์ตํ ๊ฒ
ํ๊ฐ๋ ๋ฉ์ง ๋์๋ณด๋๋ณด๋ค ํ๊ท๋ฅผ ๋นจ๋ฆฌ ์ก๋ ์ต๊ด์ด ๋ ์ค์ํฉ๋๋ค.
ํํ ์ค์
- ํ๊ฐ์ ์ด ๋๋ฌด ํผ
- ์คํจ ์ผ์ด์ค๊ฐ ์์ด์ง ์์
- ๊ธฐ์ค์ด ๋งค๋ฒ ๋ฐ๋
- ๊ฒฐ๊ณผ๊ฐ ์์ ๋ฌธ์ฅ์ด๋ผ ๋น๊ต๊ฐ ์ด๋ ค์
์ฒดํฌ๋ฆฌ์คํธ
- ์์ ํ๊ฐ์ ์ด ์๋ค
- ๊ท์น ์ฒดํฌ์ ์ ์ฑ ์ฒดํฌ๋ฅผ ๋๋ด๋ค
- ์คํจ ์ผ์ด์ค๋ฅผ ์ฆ์ ์ถ๊ฐํ ์ ์๋ค
- ๋ฒ์ ๊ฐ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค