databias

Databias er systematisk skævhed i et datasæt, der fører til uretfærdige eller ukorrekte resultater i en AI-model.

Kort fortalt

Kort sagt: Databias betyder, at dataene, som en AI trænes på, ikke er repræsentative, så modellen bliver skæv og upålidelig.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    Systematisk fejl i et datasæt, der opstår når data ikke er repræsentative for den population eller proces, de skal modellere.

    • Hvis et ansigtsgenkendelsessystem hovedsageligt trænes med billeder af lyse mennesker, lider det af databias og fungerer dårligt på mørkere hudtyper.
    • Databias i sundhedsdata kan føre til AI-modeller, der undervurderer sygdomsrisici for underrepræsenterede grupper.
  2. 2

    Skævhed i data, der afspejler eller forstærker eksisterende sociale fordomme eller uligheder.

    • Sprogmodeller kan lære databias fra træningstekster og reproducere stereotype holdninger.
    • Databias i rekrutteringsdata kan få en AI til at favorisere mandlige kandidater over kvindelige.

Hvornår bruges det

Databias opstår typisk under dataindsamling, -annotation eller -forberedelse. Det kan føre til diskrimination i ansigtsgenkendelse, sprogmodeller eller beslutningssystemer, hvis bias ikke opdages og korrigeres.

Oprindelse

Lånt fra engelsk 'data bias', sammensat af 'data' (flertal af latin datum) og 'bias' (skævhed).

Kilder

1
  • Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning.