generaliseringsfejl

Generaliseringsfejl er den fejl, en model begår på nye, hidtil usete data, i modsætning til træningsfejlen.

Kort fortalt

Kort sagt er generaliseringsfejl forskellen på, hvor godt en model klarer sig på de data, den er trænet på, og på helt nye data.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    Den forventede fejl på nye data i forhold til den sande underliggende funktion.

    • En models generaliseringsfejl måles typisk på en testmængde for at estimere dens evne til at forudsige nye data.Hastie et al., The Elements of Statistical Learning, 2009
  2. 2

    Den empiriske generaliseringsfejl, der beregnes som gennemsnittet af tab på en separat testmængde.

    • For at undgå overfitting skal generaliseringsfejlen estimeres på data, der ikke blev brugt under træning.

Hvornår bruges det

Generaliseringsfejl bruges til at vurdere, hvor godt en model generaliserer fra træningsdata til ukendte data. Den er central i modelvalg og regularisering for at undgå overfitting. Typisk estimeres den via en testmængde eller krydsvalidering.

Formel

Generalization error = E[(y - f̂(x))²] = (Bias[f̂(x)])² + Var[f̂(x)] + σ², hvor σ² er den irreducible fejl.

Oprindelse

Sammensat af 'generalisering' (evnen til at anvende lært viden på nye situationer) og 'fejl' (afvigelse fra sand værdi). Udtrykket kommer fra statistik og maskinlæring.

Kilder

2
  • The Elements of Statistical Learning (Hastie, Tibshirani, Friedman)
  • Understanding Machine Learning (Shalev-Shwartz, Ben-David)