sampling bias

Sampling bias er en systematisk fejl i dataindsamlingen, hvor udvalget ikke repræsenterer den sande population, hvilket fører til skæve modeller.

Kort fortalt

Sampling bias opstår, når de data, du træner din AI-model på, ikke afspejler den virkelighed, den skal bruges i — så lærer den forkerte mønstre.

Kategori: begreb
Niveau: begynder

Betydninger

1
Sampling bias er en systematisk fejl i indsamlingen af data, hvor den anvendte prøve ikke er repræsentativ for den population, man ønsker at generalisere til. I maskinlæring betyder det, at træningsdataene ikke dækker alle relevante variationer i måldomænet, hvilket resulterer i en model, der er skæv og upålidelig for nogle grupper eller scenarier.
- Hvis man træner en ansigtsgenkendelsesmodel udelukkende på billeder af mennesker med lys hud, lider den af sampling bias og fungerer dårligt for mørkhudede.
- Sampling bias kan opstå, hvis spørgeskemaer kun udsendes online, da personer uden internetadgang udelukkes.

Hvornår bruges det

Sampling bias er kritisk at identificere og korrigere i maskinlæringsprojekter, især når træningsdata er indsamlet under bestemte betingelser eller fra en homogen gruppe. Bias kan føre til modeller, der præsterer dårligt på underrepræsenterede segmenter og kan forstærke eksisterende skævheder.

Oprindelse

Udtrykket 'sampling bias' stammer fra statistik og betegner en fejl i stikprøveudvælgelsen, der gør stikprøven ikke-repræsentativ for den samlede population.

Kilder

Bishop, C. M. (2006). Pattern Recognition and Machine Learning.
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A Survey on Bias and Fairness in Machine Learning.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →