feature selection
Proces hvor en delmængde af relevante features (inputvariable) udvælges til brug i en model.
Kort fortalt
Feature selection handler om at vælge de vigtigste kolonner i dit datasæt, så din model bliver hurtigere og mere præcis.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈfiːtʃər sɪˈlɛkʃən/
Betydninger
1- 1
Udvælgelse af en delmængde af de tilgængelige features i et datasæt for at forbedre modelpræstation, reducere overfitting og mindske beregningsomkostninger.
- Ved at anvende feature selection på et datasæt med 1000 features reducerede vi antallet til 50 uden signifikant tab af nøjagtighed.
- Feature selection kan udføres med metoder som filter, wrapper eller embedded, afhængigt af problemet.
Hvornår bruges det
Feature selection bruges både før og under modeltræning for at reducere overfitting, forbedre ydeevne og mindske træningstid. Det er særligt anvendeligt ved højdimensionelle datasæt, fx i tekst- eller genomdata.
Kodeeksempel
from sklearn.feature_selection import SelectKBest, f_classif
import numpy as np
X = np.random.rand(100, 20)
y = np.random.randint(0, 2, 100)
selector = SelectKBest(score_func=f_classif, k=5)
X_selected = selector.fit_transform(X, y)Eksempel på feature selection med SelectKBest fra scikit-learn, der vælger de 5 bedste features baseret på F-test.
Oprindelse
Udtrykket stammer fra maskinlæring og datamining, inspireret af statistisk variabelselektion.
Afledte ord
3Kilder
2- Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157–1182.
- scikit-learn documentation: Feature selection