generaliseringsfejl
Generaliseringsfejl er den fejl, en model begår på nye, hidtil usete data, i modsætning til træningsfejlen.
Kort fortalt
Kort sagt er generaliseringsfejl forskellen på, hvor godt en model klarer sig på de data, den er trænet på, og på helt nye data.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
2- 1
Den forventede fejl på nye data i forhold til den sande underliggende funktion.
- En models generaliseringsfejl måles typisk på en testmængde for at estimere dens evne til at forudsige nye data. — Hastie et al., The Elements of Statistical Learning, 2009
- 2
Den empiriske generaliseringsfejl, der beregnes som gennemsnittet af tab på en separat testmængde.
- For at undgå overfitting skal generaliseringsfejlen estimeres på data, der ikke blev brugt under træning.
Hvornår bruges det
Generaliseringsfejl bruges til at vurdere, hvor godt en model generaliserer fra træningsdata til ukendte data. Den er central i modelvalg og regularisering for at undgå overfitting. Typisk estimeres den via en testmængde eller krydsvalidering.
Formel
Generalization error = E[(y - f̂(x))²] = (Bias[f̂(x)])² + Var[f̂(x)] + σ², hvor σ² er den irreducible fejl.Oprindelse
Sammensat af 'generalisering' (evnen til at anvende lært viden på nye situationer) og 'fejl' (afvigelse fra sand værdi). Udtrykket kommer fra statistik og maskinlæring.
Kilder
2- The Elements of Statistical Learning (Hastie, Tibshirani, Friedman)
- Understanding Machine Learning (Shalev-Shwartz, Ben-David)