syntetisk datagenerering
Syntetisk datagenerering er processen med at skabe kunstige data, der efterligner egenskaberne ved rigtige data, ofte brugt til træning af AI-modeller.
Kort fortalt
Kort fortalt: man laver falske data, som ligner rigtige data, så AI-modeller kan trænes uden at bruge følsomme eller svært tilgængelige data.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
2- 1
Generel proces hvor man skaber kunstige data ved hjælp af regler, simulationer eller genererende modeller, med det formål at efterligne virkelige datas statistiske egenskaber.
- Mange virksomheder bruger syntetisk datagenerering til at udvide deres træningsdatasæt.
- 2
Specifik metode der anvender generativ AI, såsom GAN'er eller variationelle autoencodere, til at producere nye data punkter, der ligner en given træningsfordeling.
- GAN'er er en populær metode til syntetisk datagenerering af billeder.
Hvornår bruges det
Syntetisk datagenerering bruges når der er mangel på rigtige data, eller når data er følsomme og ikke må deles. Det anvendes fx til at træne computer vision-modeller med varierede billeder, eller til at generere tekstdata til sprogmodeller. Teknikker inkluderer GAN'er, variationelle autoencodere og simuleringsbaserede metoder.
Oprindelse
Udtrykket 'syntetisk' kommer fra græsk 'synthetikos' (sammensat), og 'datagenerering' betyder at skabe data på kunstig vis.