syntetiske data

Syntetiske data er kunstigt genererede data, der efterligner virkelige data, og som anvendes til at træne AI-modeller, når reelle data er knappe, følsomme eller skæve.

Kort fortalt

Det er falske data, der ligner ægte data, så AI kan lære uden at bruge rigtige personoplysninger.

Kategori: begreb
Niveau: begynder

Betydninger

1
Data genereret algoritmisk for at ligne et reelt datasæt, anvendt til træning, evaluering eller test af maskinlæringsmodeller.
- Ved at generere syntetiske data kan man træne en model til at genkende sjældne trafiksituationer uden at skulle indsamle tusindvis af virkelige eksempler.

Hvornår bruges det

Syntetiske data bruges typisk til at udvide eksisterende datasæt (dataaugmentering), teste modellers robusthed eller simulere sjældne hændelser. Inden for computer vision genereres syntetiske billeder via 3D-simulering, inden for NLP genereres syntetisk tekst via sprogmodeller, og i sundhedsdata oprettes anonymiserede patientjournaler.

Kodeeksempel

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

Opretter et syntetisk klassifikationsdatasæt med 1000 prøver og 20 features.

Oprindelse

Ordet 'syntetisk' stammer fra græsk 'synthetikos' (sammensat) og 'data' fra latin (givet). Betegnelsen henviser til, at dataene er konstruerede, ikke indsamlede.

Afledte ord

syntetisk datagenerering syntetisk datasæt

Kilder

Synthetic Data for Deep Learning (Nikolenko, 2019)
Generative Adversarial Nets (Goodfellow et al., 2014)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →