semi-supervised classification

Klassifikationsmetode hvor modellen trænes på en kombination af få annoterede og mange uannoterede data for at forbedre præcisionen.

Kort fortalt

En teknik hvor en maskinlæringsmodel lærer at klassificere data ved hjælp af både mærkede og umærkede eksempler, typisk når mærkede data er knappe.

Kategori
teknik
Niveau
begynder

Betydninger

1
  1. 1

    En maskinlæringsteknik hvor en klassifikationsmodel trænes på et datasæt med både annoterede og uannoterede instanser, med det formål at opnå bedre ydeevne end ved kun brug af de annoterede data.

    • I et semi-supervised classification setup anvendes en lille mængde annoterede billeder til at klassificere et stort antal uannoterede billeder.
    • Semi-supervised classification er særligt nyttig i tekstanalyse, hvor annotering af store mængder tekst er uoverkommelig.

Hvornår bruges det

Anvendes i scenarier hvor annotering af data er dyr eller tidskrævende, fx i medicinsk diagnose eller tekstklassifikation. Modellen udnytter strukturen i de uannoterede data til at generalisere bedre.

Kodeeksempel

from sklearn.semi_supervised import SelfTrainingClassifier
from sklearn.svm import SVC

base_clf = SVC(probability=True)
semi_clf = SelfTrainingClassifier(base_clf)
semi_clf.fit(X_labeled, y_labeled)
semi_clf.predict(X_unlabeled)

Eksempel på brug af SelfTrainingClassifier til semi-supervised classification i scikit-learn.

Oprindelse

Udtrykket kombinerer 'semi-' (halv-) og 'supervised' (overvåget) med 'classification' (klassifikation), og refererer til en mellemting mellem supervised og unsupervised learning.

Afledte ord

1

Kilder

1
  • Semi-Supervised Learning (Chapelle et al., 2006)