fortræningsdata
Data brugt til at træne en AI-model fra bunden, inden eventuel finjustering.
Kort fortalt
Fortræningsdata er det store, ustrukturerede datasæt, som en model som GPT eller BERT først trænes på, så den lærer sprog og verden.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- [ˈfʌtˢʁɛneŋsˌd̥ɑːtˢɑ]
Betydninger
1- 1
Det datasæt, der bruges til den indledende træning af en model, typisk for at give den generel viden og sprogforståelse.
- GPT-3 blev trænet på et kæmpe fortræningsdatasæt med 570 GB tekst. — Brown et al., 2020
- Kvaliteten af fortræningsdata er afgørende for modellens evne til at generalisere.
Hvornår bruges det
Fortræningsdata anvendes i den første fase af træning af avancerede AI-modeller, ofte bestående af enorme mængder tekst fra internettet, bøger og andre kilder. Modellen lærer grundlæggende mønstre, før den finjusteres til specifikke opgaver.
Oprindelse
Sammensat af 'for-' (forud) + 'træning' + 'data', efter engelsk 'pre-training data'.
Afledte ord
2Kilder
2- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
- Language Models are Few-Shot Learners (2020)