Evaluering
Proces, hvor en kunstig intelligensmodels præstation måles og vurderes ved hjælp af relevante metrikker.
Kort fortalt
Hvordan måler vi, om en AI-model er god? Evaluering giver svaret gennem test og metrikker.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- evaluˈeˀʁeŋ
Betydninger
3- 1
Proces, hvor en models præstation måles på et datasæt ved hjælp af metrikker som nøjagtighed, præcision, recall, F1-score mv.
- Evaluering af klassifikationsmodellen viste en F1-score på 0,92. — standard AI-praksis
- 2
Adskillelse af evaluering på valideringssæt (til modeljustering) og testsæt (til endelig vurdering).
- For at undgå overfitting bør evaluering på testsættet først ske efter endelig modelvalg. — standard machine learning-praksis
- 3
Vurdering af sprogmodellers output, ofte via menneskelig evaluering eller automatiske metrikker som BLEU, ROUGE, perplexity.
- Menneskelig evaluering af ChatGPT's svar viste høj brugertilfredshed. — LLM-forskning, 2023
Hvornår bruges det
Evaluering bruges gennem hele modeludviklingen: til at sammenligne modeller, justere hyperparametre og validere generalisering. Det adskilles typisk i validering (under træning) og test (efter endelig model).
Oprindelse
Fra latin 'evaluare' (bestemme værdi). I AI-sammenhæng overtaget fra generel statistik og maskinlæringspraksis.
Afledte ord
3Kilder
2- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.
- Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach.