usikkerhedsprøvetagning
En aktiv læringsteknik hvor modellen vælger de data at blive mærket, som den er mest usikker på.
Kort fortalt
I stedet for at mærke tilfældige data, vælger modellen selv de mest usikre eksempler, så mennesker kun behøver at mærke de vigtigste.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En metode inden for aktiv læring, hvor en maskinlæringsmodel iterativt vælger de datapunkter, den er mindst sikker på, til at blive mærket af en menneskelig ekspert, med henblik på at forbedre modellens præstation med færrest mulige mærkede data.
- Ved usikkerhedsprøvetagning vælger modellen de observationer, hvor den har sværest ved at klassificere dem korrekt.
- Usikkerhedsprøvetagning er en af de mest anvendte strategier i aktiv læring.
Hvornår bruges det
Bruges i aktiv læring for at reducere mængden af mærkede data. Modellen præsenterer de usikre punkter for en menneskelig annotator, som giver dem korrekte labels. Det er særligt nyttigt når mærkning er dyr.
Kodeeksempel
import numpy as np
from sklearn.ensemble import RandomForestClassifier
# Assume model is trained on labeled pool
model = RandomForestClassifier()
model.fit(X_labeled, y_labeled)
# Unlabeled pool
probs = model.predict_proba(X_unlabeled)
# Uncertainty: entropy
entropy = -np.sum(probs * np.log(probs + 1e-12), axis=1)
# Select top 10 most uncertain
uncertain_idx = np.argsort(entropy)[-10:]
X_query = X_unlabeled[uncertain_idx]Eksempel på usikkerhedsprøvetagning med entropi som usikkerhedsmål. Modellen vælger de 10 mest usikre datapunkter fra den umærkede pulje.
Oprindelse
Sammensat af 'usikkerhed' (uncertainty) og 'prøvetagning' (sampling), direkte oversættelse af engelsk 'uncertainty sampling'.
Kilder
2- Uncertainty Sampling for Active Learning (Lewis & Gale, 1994)
- Active Learning Literature Survey (Settles, 2012)