syntetisk træningsdata

Kunstigt fremstillede data, der bruges til at træne maskinlæringsmodeller, ofte for at kompensere for mangel på rigtige data eller for at forbedre modelrobusthed.

Kort fortalt

Syntetisk træningsdata er falske data, der ser ud som rigtige data, så en AI-model kan lære af dem.

Kategori
teknik
Niveau
øvet
Udtale
[syˈtˢeˀtisɡ̊ ˈtˢʁanɪŋsˌd̥ɑːd̥a]

Betydninger

1
  1. 1

    Kunstigt genererede data, der efterligner egenskaberne ved rigtige data og bruges til at træne eller evaluere maskinlæringsmodeller.

    • Projektet brugte syntetisk træningsdata til at træne en ansigtsgenkendelsesmodel uden at krænke privatlivets fred.AI Ordbog, 2025
    • Generative adversarial networks (GAN'er) er en populær metode til at skabe syntetisk træningsdata.AI Ordbog, 2025

Hvornår bruges det

Syntetisk træningsdata anvendes, når rigtige data er svære at få fat i, for dyre, eller af privatlivshensyn. Det bruges også til at simulere sjældne hændelser eller til at augmentere eksisterende datasæt. Teknikker omfatter GAN'er, variationsautoenkodere og simuleringsmiljøer.

Kodeeksempel

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
# X is synthetic training data, y are labels

Oprettelse af et syntetisk klassifikationsdatasæt med 1000 prøver og 20 features.

Oprindelse

Første led 'syntetisk' kommer fra græsk 'synthetikos' (sammensat) via latin. 'Træningsdata' er en oversættelse af engelsk 'training data'.

Afledte ord

2

Kilder

2
  • Synthetic Data for Deep Learning
  • Generative Adversarial Networks (Goodfellow et al., 2014)