Synthetic data
Kunstigt genererede data, der efterligner egenskaberne ved virkelige data, skabt via algoritmer eller simulationer.
Kort fortalt
Syntetiske data er data, der er lavet af en computer i stedet for at være indsamlet fra virkeligheden, og bruges ofte til at træne AI-modeller, når rigtige data er få eller følsomme.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /sɪnˈθɛtɪk ˈdeɪtə/
Betydninger
2- 1
Kunstigt fremstillede data, typisk genereret af en algoritme eller model, som statistisk ligner virkelige data uden at indeholde ægte observationer.
- Forskerne brugte syntetiske data til at simulere sjældne hændelser, som ikke var tilstrækkeligt repræsenteret i det oprindelige datasæt.
- Syntetiske data kan genereres ved hjælp af generative adversarial networks (GANs) eller variational autoencoders (VAEs).
- 2
Data skabt ved at manipulere eller kombinere eksisterende data, f.eks. gennem interpolation, støjtilsætning eller transformation, ofte brugt til dataaugmentation.
- Ved at tilføje let støj til billeder kan man generere syntetiske variationer, der forbedrer modellens robusthed.
Hvornår bruges det
Syntetiske data anvendes især i maskinlæring til at udvide træningsdatasæt, teste modeller under kontrollerede forhold eller beskytte privatliv ved at undgå brug af ægte persondata. Det er særligt udbredt i computer vision, naturlig sprogbehandling og medicinsk billedanalyse.
Oprindelse
Fra engelsk 'synthetic' (kunstig, sammenstillet) og 'data' (datamængde); 'synthetic' stammer fra græsk 'synthetikos' (sammensættende).
Kilder
2- Synthetic Data for Deep Learning (2020)
- Generative Adversarial Networks (2014, Goodfellow et al.)