Synthetic data

Kunstigt genererede data, der efterligner egenskaberne ved virkelige data, skabt via algoritmer eller simulationer.

Kort fortalt

Syntetiske data er data, der er lavet af en computer i stedet for at være indsamlet fra virkeligheden, og bruges ofte til at træne AI-modeller, når rigtige data er få eller følsomme.

Kategori
begreb
Niveau
øvet
Udtale
/sɪnˈθɛtɪk ˈdeɪtə/

Betydninger

2
  1. 1

    Kunstigt fremstillede data, typisk genereret af en algoritme eller model, som statistisk ligner virkelige data uden at indeholde ægte observationer.

    • Forskerne brugte syntetiske data til at simulere sjældne hændelser, som ikke var tilstrækkeligt repræsenteret i det oprindelige datasæt.
    • Syntetiske data kan genereres ved hjælp af generative adversarial networks (GANs) eller variational autoencoders (VAEs).
  2. 2

    Data skabt ved at manipulere eller kombinere eksisterende data, f.eks. gennem interpolation, støjtilsætning eller transformation, ofte brugt til dataaugmentation.

    • Ved at tilføje let støj til billeder kan man generere syntetiske variationer, der forbedrer modellens robusthed.

Hvornår bruges det

Syntetiske data anvendes især i maskinlæring til at udvide træningsdatasæt, teste modeller under kontrollerede forhold eller beskytte privatliv ved at undgå brug af ægte persondata. Det er særligt udbredt i computer vision, naturlig sprogbehandling og medicinsk billedanalyse.

Oprindelse

Fra engelsk 'synthetic' (kunstig, sammenstillet) og 'data' (datamængde); 'synthetic' stammer fra græsk 'synthetikos' (sammensættende).

Kilder

2
  • Synthetic Data for Deep Learning (2020)
  • Generative Adversarial Networks (2014, Goodfellow et al.)