sampling bias
Sampling bias er en systematisk fejl i dataindsamlingen, hvor udvalget ikke repræsenterer den sande population, hvilket fører til skæve modeller.
Kort fortalt
Sampling bias opstår, når de data, du træner din AI-model på, ikke afspejler den virkelighed, den skal bruges i — så lærer den forkerte mønstre.
- Kategori
- begreb
- Niveau
- begynder
Betydninger
1- 1
Sampling bias er en systematisk fejl i indsamlingen af data, hvor den anvendte prøve ikke er repræsentativ for den population, man ønsker at generalisere til. I maskinlæring betyder det, at træningsdataene ikke dækker alle relevante variationer i måldomænet, hvilket resulterer i en model, der er skæv og upålidelig for nogle grupper eller scenarier.
- Hvis man træner en ansigtsgenkendelsesmodel udelukkende på billeder af mennesker med lys hud, lider den af sampling bias og fungerer dårligt for mørkhudede.
- Sampling bias kan opstå, hvis spørgeskemaer kun udsendes online, da personer uden internetadgang udelukkes.
Hvornår bruges det
Sampling bias er kritisk at identificere og korrigere i maskinlæringsprojekter, især når træningsdata er indsamlet under bestemte betingelser eller fra en homogen gruppe. Bias kan føre til modeller, der præsterer dårligt på underrepræsenterede segmenter og kan forstærke eksisterende skævheder.
Oprindelse
Udtrykket 'sampling bias' stammer fra statistik og betegner en fejl i stikprøveudvælgelsen, der gør stikprøven ikke-repræsentativ for den samlede population.
Kilder
2- Bishop, C. M. (2006). Pattern Recognition and Machine Learning.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A Survey on Bias and Fairness in Machine Learning.