dataset
En samling af strukturerede data, typisk bestående af eksempler med træk og eventuelle etiketter, der bruges til at træne, validere eller teste en maskinlæringsmodel.
Kort fortalt
Et datasæt er en struktureret samling af eksempler, som bruges til at lære en AI-model at genkende mønstre.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /ˈdeɪtəˌsɛt/
Betydninger
2- 1
En struktureret samling af dataeksempler, der anvendes til maskinlæring. Hvert eksempel består typisk af en eller flere inputvariabler (træk) og eventuelt en outputvariabel (etikette). Datasættet kan opdeles i trænings-, validerings- og testsæt.
- MNIST-datasættet indeholder 70.000 håndskrevne cifre, der bruges til at træne klassifikationsmodeller.
- Før træning blev datasættet renset for manglende værdier og normaliseret.
- 2
I bredere forstand enhver samling af organiserede data, der kan bruges til analyse eller maskinlæring, uanset om de er mærkede eller ej.
- Virksomheden samlede et stort datasæt af kundetransaktioner til at forudsige købsadfærd.
Hvornår bruges det
Datasæt er fundamentale for maskinlæring; et træningsdatasæt bruges til at træne modellen, et valideringsdatasæt til at justere hyperparametre, og et testdatasæt til at evaluere den endelige ydeevne. Datasæt kan være små (f.eks. Iris) eller store (f.eks. ImageNet).
Oprindelse
Fra engelsk 'data' (flertal af latin 'datum' = 'givet') og 'set' (samling).
Afledte ord
4Kilder
2- The Elements of Statistical Learning
- Deep Learning, Goodfellow et al.