diversitetsprøvetagning
Diversitetsprøvetagning er en prøveudtagningsmetode, der vælger et repræsentativt sæt af data ved at maksimere variationen i egenskaber mellem prøverne.
Kort fortalt
Kort sagt: en teknik til at vælge forskellige data, så modellen lærer fra et bredt spektrum af eksempler.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Metode til at vælge en undergruppe af data, der er så forskellige som muligt, typisk baseret på målinger af lighed eller afstand mellem datapunkter.
- I aktiv læring anvendes diversitetsprøvetagning for at reducere antallet af nødvendige annoteringer.
- Diversitetsprøvetagning sikrer, at træningsdatasættet dækker hele inputrummet.
Hvornår bruges det
Bruges ofte i aktiv læring og datasætkonstruktion for at undgå bias og forbedre generalisering. For eksempel vælges de mest forskelligartede umærkede punkter til manuel annotering.
Kodeeksempel
import numpy as np
from sklearn.metrics.pairwise import pairwise_distances
def farthest_first_traversal(X, n):
selected = []
# Pick first point randomly
idx = np.random.randint(len(X))
selected.append(idx)
while len(selected) < n:
dist = pairwise_distances(X, X[selected]).min(axis=1)
idx = np.argmax(dist)
selected.append(idx)
return X[selected]Farthest-first traversal, en klassisk diversitetsprøvetagningsalgoritme.
Oprindelse
Sammensat af 'diversitet' (mangfoldighed) og 'prøvetagning' (sampling).