Evaluering

Proces, hvor en kunstig intelligensmodels præstation måles og vurderes ved hjælp af relevante metrikker.

Kort fortalt

Hvordan måler vi, om en AI-model er god? Evaluering giver svaret gennem test og metrikker.

Kategori: begreb
Niveau: begynder
Udtale: evaluˈeˀʁeŋ

Betydninger

1
Proces, hvor en models præstation måles på et datasæt ved hjælp af metrikker som nøjagtighed, præcision, recall, F1-score mv.
- Evaluering af klassifikationsmodellen viste en F1-score på 0,92. — standard AI-praksis
2
Adskillelse af evaluering på valideringssæt (til modeljustering) og testsæt (til endelig vurdering).
- For at undgå overfitting bør evaluering på testsættet først ske efter endelig modelvalg. — standard machine learning-praksis
3
Vurdering af sprogmodellers output, ofte via menneskelig evaluering eller automatiske metrikker som BLEU, ROUGE, perplexity.
- Menneskelig evaluering af ChatGPT's svar viste høj brugertilfredshed. — LLM-forskning, 2023

Hvornår bruges det

Evaluering bruges gennem hele modeludviklingen: til at sammenligne modeller, justere hyperparametre og validere generalisering. Det adskilles typisk i validering (under træning) og test (efter endelig model).

Oprindelse

Fra latin 'evaluare' (bestemme værdi). I AI-sammenhæng overtaget fra generel statistik og maskinlæringspraksis.

Afledte ord

evalueringsmetrik evalueringssæt evalueringsprotokol

Kilder

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.
Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →