diversitetsprøvetagning

Diversitetsprøvetagning er en prøveudtagningsmetode, der vælger et repræsentativt sæt af data ved at maksimere variationen i egenskaber mellem prøverne.

Kort fortalt

Kort sagt: en teknik til at vælge forskellige data, så modellen lærer fra et bredt spektrum af eksempler.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Metode til at vælge en undergruppe af data, der er så forskellige som muligt, typisk baseret på målinger af lighed eller afstand mellem datapunkter.

    • I aktiv læring anvendes diversitetsprøvetagning for at reducere antallet af nødvendige annoteringer.
    • Diversitetsprøvetagning sikrer, at træningsdatasættet dækker hele inputrummet.

Hvornår bruges det

Bruges ofte i aktiv læring og datasætkonstruktion for at undgå bias og forbedre generalisering. For eksempel vælges de mest forskelligartede umærkede punkter til manuel annotering.

Kodeeksempel

import numpy as np
from sklearn.metrics.pairwise import pairwise_distances

def farthest_first_traversal(X, n):
    selected = []
    # Pick first point randomly
    idx = np.random.randint(len(X))
    selected.append(idx)
    while len(selected) < n:
        dist = pairwise_distances(X, X[selected]).min(axis=1)
        idx = np.argmax(dist)
        selected.append(idx)
    return X[selected]

Farthest-first traversal, en klassisk diversitetsprøvetagningsalgoritme.

Oprindelse

Sammensat af 'diversitet' (mangfoldighed) og 'prøvetagning' (sampling).

Afledte ord

1