cross validation
En teknik til at evaluere en models præstation ved at opdele data i flere undergrupper, træne på nogle og teste på resten, gentagne gange.
Kort fortalt
En metode til at teste, hvor god en model er, ved at træne og teste den på forskellige dele af data flere gange.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /krɒs ˌvælɪˈdeɪʃən/
Betydninger
1- 1
En resampling-teknik, hvor datasættet opdeles i flere komplementære delmængder, og modellen trænes på en kombination af disse og testes på den resterende del. Processen gentages, og resultaterne middles.
- Krydsvalidering er essentiel for at undgå overfitting, når man sammenligner modeller.
- Ved 5-fold krydsvalidering deles data i 5 lige store dele; modellen trænes på 4 dele og testes på den 5. del, hvilket gentages 5 gange.
Hvornår bruges det
Bruges typisk til at vurdere en models generaliseringsevne og til at justere hyperparametre. Almindelige varianter er k-fold, leave-one-out og stratified cross-validation.
Formel
CV = (1/k) * Σ_{i=1}^{k} Metric_iKodeeksempel
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print('Gennemsnitlig nøjagtighed:', scores.mean())Eksempel på 5-fold krydsvalidering med scikit-learn, hvor modellens gennemsnitlige nøjagtighed udskrives.
Oprindelse
Fra engelsk 'cross' (på tværs) og 'validation' (validering), fordi modellen valideres på tværs af forskellige undergrupper af data.
Afledte ord
3Kilder
2- scikit-learn: Cross-validation
- Kohavi, R. (1995). A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection.