usikkerhedsprøvetagning

En aktiv læringsteknik hvor modellen vælger de data at blive mærket, som den er mest usikker på.

Kort fortalt

I stedet for at mærke tilfældige data, vælger modellen selv de mest usikre eksempler, så mennesker kun behøver at mærke de vigtigste.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En metode inden for aktiv læring, hvor en maskinlæringsmodel iterativt vælger de datapunkter, den er mindst sikker på, til at blive mærket af en menneskelig ekspert, med henblik på at forbedre modellens præstation med færrest mulige mærkede data.

    • Ved usikkerhedsprøvetagning vælger modellen de observationer, hvor den har sværest ved at klassificere dem korrekt.
    • Usikkerhedsprøvetagning er en af de mest anvendte strategier i aktiv læring.

Hvornår bruges det

Bruges i aktiv læring for at reducere mængden af mærkede data. Modellen præsenterer de usikre punkter for en menneskelig annotator, som giver dem korrekte labels. Det er særligt nyttigt når mærkning er dyr.

Kodeeksempel

import numpy as np
from sklearn.ensemble import RandomForestClassifier

# Assume model is trained on labeled pool
model = RandomForestClassifier()
model.fit(X_labeled, y_labeled)

# Unlabeled pool
probs = model.predict_proba(X_unlabeled)

# Uncertainty: entropy
entropy = -np.sum(probs * np.log(probs + 1e-12), axis=1)

# Select top 10 most uncertain
uncertain_idx = np.argsort(entropy)[-10:]
X_query = X_unlabeled[uncertain_idx]

Eksempel på usikkerhedsprøvetagning med entropi som usikkerhedsmål. Modellen vælger de 10 mest usikre datapunkter fra den umærkede pulje.

Oprindelse

Sammensat af 'usikkerhed' (uncertainty) og 'prøvetagning' (sampling), direkte oversættelse af engelsk 'uncertainty sampling'.

Kilder

2
  • Uncertainty Sampling for Active Learning (Lewis & Gale, 1994)
  • Active Learning Literature Survey (Settles, 2012)