datasets

En struktureret samling af data, typisk brugt til træning og evaluering af maskinlæringsmodeller.

Kort fortalt

Et datasæt er en samling af data (f.eks. billeder, tekst eller tal), der bruges til at træne en AI-model.

Kategori
begreb
Niveau
begynder

Betydninger

2
  1. 1

    En samling af data, ofte organiseret i en tabel eller en anden struktureret form, der anvendes til analyse eller maskinlæring.

    • Forskergruppen offentliggjorde et stort datasæt af danske nyhedsartikler til sprogmodelstræning.fiktivt eksempel
    • Datasættet indeholder 10.000 annoterede billeder af trafikskilte.fiktivt eksempel
  2. 2

    Specifikt i maskinlæring: en mængde af præparerede eksempler (typisk input-output-par), der bruges til at træne, validere og teste en model.

    • Træningsdatasættet består af 70% af de samlede data, mens resten deles ligeligt mellem validering og test.fiktivt eksempel
    • Et balanceret datasæt forhindrer modellen i at blive partisk mod en bestemt klasse.fiktivt eksempel

Hvornår bruges det

I maskinlæring opdeles datasæt ofte i trænings-, validerings- og testsæt for at undgå overfitting. Datasæt kan være strukturerede (f.eks. tabeller) eller ustrukturerede (f.eks. billeder). Kvaliteten og størrelsen af datasættet er afgørende for modellens ydeevne.

Kodeeksempel

import pandas as pd
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
y = df['target']

Indlæsning af et CSV-datasæt med pandas, adskillelse af features og målevariable.

Oprindelse

Sammensat af 'data' (latin for 'givne ting') og 'sæt' (samling).

Afledte ord

3