syntetiske data
Syntetiske data er kunstigt genererede data, der efterligner virkelige data, og som anvendes til at træne AI-modeller, når reelle data er knappe, følsomme eller skæve.
Kort fortalt
Det er falske data, der ligner ægte data, så AI kan lære uden at bruge rigtige personoplysninger.
- Kategori
- begreb
- Niveau
- begynder
Betydninger
1- 1
Data genereret algoritmisk for at ligne et reelt datasæt, anvendt til træning, evaluering eller test af maskinlæringsmodeller.
- Ved at generere syntetiske data kan man træne en model til at genkende sjældne trafiksituationer uden at skulle indsamle tusindvis af virkelige eksempler.
Hvornår bruges det
Syntetiske data bruges typisk til at udvide eksisterende datasæt (dataaugmentering), teste modellers robusthed eller simulere sjældne hændelser. Inden for computer vision genereres syntetiske billeder via 3D-simulering, inden for NLP genereres syntetisk tekst via sprogmodeller, og i sundhedsdata oprettes anonymiserede patientjournaler.
Kodeeksempel
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)Opretter et syntetisk klassifikationsdatasæt med 1000 prøver og 20 features.
Oprindelse
Ordet 'syntetisk' stammer fra græsk 'synthetikos' (sammensat) og 'data' fra latin (givet). Betegnelsen henviser til, at dataene er konstruerede, ikke indsamlede.
Afledte ord
2Kilder
2- Synthetic Data for Deep Learning (Nikolenko, 2019)
- Generative Adversarial Nets (Goodfellow et al., 2014)