cross validation

En teknik til at evaluere en models præstation ved at opdele data i flere undergrupper, træne på nogle og teste på resten, gentagne gange.

Kort fortalt

En metode til at teste, hvor god en model er, ved at træne og teste den på forskellige dele af data flere gange.

Kategori: teknik
Niveau: øvet
Udtale: /krɒs ˌvælɪˈdeɪʃən/

Betydninger

1
En resampling-teknik, hvor datasættet opdeles i flere komplementære delmængder, og modellen trænes på en kombination af disse og testes på den resterende del. Processen gentages, og resultaterne middles.
- Krydsvalidering er essentiel for at undgå overfitting, når man sammenligner modeller.
- Ved 5-fold krydsvalidering deles data i 5 lige store dele; modellen trænes på 4 dele og testes på den 5. del, hvilket gentages 5 gange.

Hvornår bruges det

Bruges typisk til at vurdere en models generaliseringsevne og til at justere hyperparametre. Almindelige varianter er k-fold, leave-one-out og stratified cross-validation.

Formel

CV = (1/k) * Σ_{i=1}^{k} Metric_i

Kodeeksempel

from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print('Gennemsnitlig nøjagtighed:', scores.mean())

Eksempel på 5-fold krydsvalidering med scikit-learn, hvor modellens gennemsnitlige nøjagtighed udskrives.

Oprindelse

Fra engelsk 'cross' (på tværs) og 'validation' (validering), fordi modellen valideres på tværs af forskellige undergrupper af data.

Afledte ord

k-fold cross-validation leave-one-out cross-validation stratified cross-validation

Kilder

scikit-learn: Cross-validation
Kohavi, R. (1995). A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →