feature selection

Proces hvor en delmængde af relevante features (inputvariable) udvælges til brug i en model.

Kort fortalt

Feature selection handler om at vælge de vigtigste kolonner i dit datasæt, så din model bliver hurtigere og mere præcis.

Kategori
teknik
Niveau
øvet
Udtale
/ˈfiːtʃər sɪˈlɛkʃən/

Betydninger

1
  1. 1

    Udvælgelse af en delmængde af de tilgængelige features i et datasæt for at forbedre modelpræstation, reducere overfitting og mindske beregningsomkostninger.

    • Ved at anvende feature selection på et datasæt med 1000 features reducerede vi antallet til 50 uden signifikant tab af nøjagtighed.
    • Feature selection kan udføres med metoder som filter, wrapper eller embedded, afhængigt af problemet.

Hvornår bruges det

Feature selection bruges både før og under modeltræning for at reducere overfitting, forbedre ydeevne og mindske træningstid. Det er særligt anvendeligt ved højdimensionelle datasæt, fx i tekst- eller genomdata.

Kodeeksempel

from sklearn.feature_selection import SelectKBest, f_classif
import numpy as np

X = np.random.rand(100, 20)
y = np.random.randint(0, 2, 100)

selector = SelectKBest(score_func=f_classif, k=5)
X_selected = selector.fit_transform(X, y)

Eksempel på feature selection med SelectKBest fra scikit-learn, der vælger de 5 bedste features baseret på F-test.

Oprindelse

Udtrykket stammer fra maskinlæring og datamining, inspireret af statistisk variabelselektion.

Afledte ord

3

Kilder

2
  • Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157–1182.
  • scikit-learn documentation: Feature selection