Evaluering

Proces, hvor en kunstig intelligensmodels præstation måles og vurderes ved hjælp af relevante metrikker.

Kort fortalt

Hvordan måler vi, om en AI-model er god? Evaluering giver svaret gennem test og metrikker.

Kategori
begreb
Niveau
begynder
Udtale
evaluˈeˀʁeŋ

Betydninger

3
  1. 1

    Proces, hvor en models præstation måles på et datasæt ved hjælp af metrikker som nøjagtighed, præcision, recall, F1-score mv.

    • Evaluering af klassifikationsmodellen viste en F1-score på 0,92.standard AI-praksis
  2. 2

    Adskillelse af evaluering på valideringssæt (til modeljustering) og testsæt (til endelig vurdering).

    • For at undgå overfitting bør evaluering på testsættet først ske efter endelig modelvalg.standard machine learning-praksis
  3. 3

    Vurdering af sprogmodellers output, ofte via menneskelig evaluering eller automatiske metrikker som BLEU, ROUGE, perplexity.

    • Menneskelig evaluering af ChatGPT's svar viste høj brugertilfredshed.LLM-forskning, 2023

Hvornår bruges det

Evaluering bruges gennem hele modeludviklingen: til at sammenligne modeller, justere hyperparametre og validere generalisering. Det adskilles typisk i validering (under træning) og test (efter endelig model).

Oprindelse

Fra latin 'evaluare' (bestemme værdi). I AI-sammenhæng overtaget fra generel statistik og maskinlæringspraksis.

Afledte ord

3

Kilder

2
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.
  • Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach.