evaluation metric

En evaluation metric er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.

Kort fortalt

Kort fortalt: Det er et tal, der fortæller, hvor godt en model klarer sig, fx hvor præcis eller hvor mange rigtige svar den giver.

Kategori
metrik
Niveau
begynder

Betydninger

2
  1. 1

    Generelt: en standardiseret måling til at bedømme kvaliteten af noget.

    • I sprogtest bruges evaluation metrics som ordforrådsbredde.
  2. 2

    Inden for maskinlæring: en funktion der kvantificerer en models præstation, typisk baseret på sammenligning mellem forudsigelser og sande værdier.

    • Valget af evaluation metric afgør, hvilken model der anses for bedst; for ubalancerede datasæt kan F1-score være mere informativ end accuracy.
    • Standard evaluation metrics for sprogmodeller omfatter perplexity og BLEU-score.

Hvornår bruges det

Evaluation metrics bruges i hele modeludviklingsforløbet: til at sammenligne modeller, optimere hyperparametre og validere, om modellen opfylder kravene. Valg af metrik afhænger af opgaven (klassifikation, regression, generation) og forretningsmålet.

Oprindelse

Fra engelsk 'evaluation' (vurdering) og 'metric' (måling).

Kilder

2
  • Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective.
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning.