fortræningsdatasæt
Et fortræningsdatasæt er en stor samling af tekst-, billed- eller andre data, som en maskinlæringsmodel trænes på i en indledende fase (fortræning) for at lære generelle mønstre og repræsentationer.
Kort fortalt
Kort fortalt: et stort datasæt uden labels, som en model lærer grundlæggende sprog eller visuelle mønstre fra.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Stort ustruktureret datasæt anvendt i fortræningsfasen af en modeltræning, ofte uden manuelle labels.
- GPT-3 blev fortrænet på et fortræningsdatasæt bestående af flere terabyte tekst fra internettet. — Brown et al., 2020
- CLIP blev fortrænet på et fortræningsdatasæt af 400 millioner billed-tekst-par fra internettet. — Radford et al., 2021
Hvornår bruges det
Fortræningsdatasæt anvendes i selvovervåget eller uovervåget læring, fx til at træne sprogmodeller som GPT eller BERT på store mængder tekst. Typisk kræver datasættet minimal forbehandling og kan være hentet fra internettet.
Oprindelse
Dansk sammensætning: 'fortræning' (pretraining) + 'datasæt' (dataset).
Afledte ord
2Kilder
2- Brown et al., 2020 - Language Models are Few-Shot Learners
- Devlin et al., 2019 - BERT: Pre-training of Deep Bidirectional Transformers