syntetiske data

Syntetiske data er kunstigt genererede data, der efterligner virkelige data, og som anvendes til at træne AI-modeller, når reelle data er knappe, følsomme eller skæve.

Kort fortalt

Det er falske data, der ligner ægte data, så AI kan lære uden at bruge rigtige personoplysninger.

Kategori
begreb
Niveau
begynder

Betydninger

1
  1. 1

    Data genereret algoritmisk for at ligne et reelt datasæt, anvendt til træning, evaluering eller test af maskinlæringsmodeller.

    • Ved at generere syntetiske data kan man træne en model til at genkende sjældne trafiksituationer uden at skulle indsamle tusindvis af virkelige eksempler.

Hvornår bruges det

Syntetiske data bruges typisk til at udvide eksisterende datasæt (dataaugmentering), teste modellers robusthed eller simulere sjældne hændelser. Inden for computer vision genereres syntetiske billeder via 3D-simulering, inden for NLP genereres syntetisk tekst via sprogmodeller, og i sundhedsdata oprettes anonymiserede patientjournaler.

Kodeeksempel

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

Opretter et syntetisk klassifikationsdatasæt med 1000 prøver og 20 features.

Oprindelse

Ordet 'syntetisk' stammer fra græsk 'synthetikos' (sammensat) og 'data' fra latin (givet). Betegnelsen henviser til, at dataene er konstruerede, ikke indsamlede.

Afledte ord

2

Kilder

2
  • Synthetic Data for Deep Learning (Nikolenko, 2019)
  • Generative Adversarial Nets (Goodfellow et al., 2014)