fortræningsdata

Data brugt til at træne en AI-model fra bunden, inden eventuel finjustering.

Kort fortalt

Fortræningsdata er det store, ustrukturerede datasæt, som en model som GPT eller BERT først trænes på, så den lærer sprog og verden.

Kategori: begreb
Niveau: øvet
Udtale: [ˈfʌtˢʁɛneŋsˌd̥ɑːtˢɑ]

Betydninger

1
Det datasæt, der bruges til den indledende træning af en model, typisk for at give den generel viden og sprogforståelse.
- GPT-3 blev trænet på et kæmpe fortræningsdatasæt med 570 GB tekst. — Brown et al., 2020
- Kvaliteten af fortræningsdata er afgørende for modellens evne til at generalisere.

Hvornår bruges det

Fortræningsdata anvendes i den første fase af træning af avancerede AI-modeller, ofte bestående af enorme mængder tekst fra internettet, bøger og andre kilder. Modellen lærer grundlæggende mønstre, før den finjusteres til specifikke opgaver.

Oprindelse

Sammensat af 'for-' (forud) + 'træning' + 'data', efter engelsk 'pre-training data'.

Afledte ord

fortræningsfase fortræningsdatasæt

Kilder

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
Language Models are Few-Shot Learners (2020)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →