evaluation metric
En evaluation metric er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.
Kort fortalt
Kort fortalt: Det er et tal, der fortæller, hvor godt en model klarer sig, fx hvor præcis eller hvor mange rigtige svar den giver.
- Kategori
- metrik
- Niveau
- begynder
Betydninger
2- 1
Generelt: en standardiseret måling til at bedømme kvaliteten af noget.
- I sprogtest bruges evaluation metrics som ordforrådsbredde.
- 2
Inden for maskinlæring: en funktion der kvantificerer en models præstation, typisk baseret på sammenligning mellem forudsigelser og sande værdier.
- Valget af evaluation metric afgør, hvilken model der anses for bedst; for ubalancerede datasæt kan F1-score være mere informativ end accuracy.
- Standard evaluation metrics for sprogmodeller omfatter perplexity og BLEU-score.
Hvornår bruges det
Evaluation metrics bruges i hele modeludviklingsforløbet: til at sammenligne modeller, optimere hyperparametre og validere, om modellen opfylder kravene. Valg af metrik afhænger af opgaven (klassifikation, regression, generation) og forretningsmålet.
Oprindelse
Fra engelsk 'evaluation' (vurdering) og 'metric' (måling).
Kilder
2- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning.