fortræningsdata

Data brugt til at træne en AI-model fra bunden, inden eventuel finjustering.

Kort fortalt

Fortræningsdata er det store, ustrukturerede datasæt, som en model som GPT eller BERT først trænes på, så den lærer sprog og verden.

Kategori
begreb
Niveau
øvet
Udtale
[ˈfʌtˢʁɛneŋsˌd̥ɑːtˢɑ]

Betydninger

1
  1. 1

    Det datasæt, der bruges til den indledende træning af en model, typisk for at give den generel viden og sprogforståelse.

    • GPT-3 blev trænet på et kæmpe fortræningsdatasæt med 570 GB tekst.Brown et al., 2020
    • Kvaliteten af fortræningsdata er afgørende for modellens evne til at generalisere.

Hvornår bruges det

Fortræningsdata anvendes i den første fase af træning af avancerede AI-modeller, ofte bestående af enorme mængder tekst fra internettet, bøger og andre kilder. Modellen lærer grundlæggende mønstre, før den finjusteres til specifikke opgaver.

Oprindelse

Sammensat af 'for-' (forud) + 'træning' + 'data', efter engelsk 'pre-training data'.

Afledte ord

2

Kilder

2
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
  • Language Models are Few-Shot Learners (2020)