fortræningsdatasæt

Et fortræningsdatasæt er en stor samling af tekst-, billed- eller andre data, som en maskinlæringsmodel trænes på i en indledende fase (fortræning) for at lære generelle mønstre og repræsentationer.

Kort fortalt

Kort fortalt: et stort datasæt uden labels, som en model lærer grundlæggende sprog eller visuelle mønstre fra.

Kategori: begreb
Niveau: øvet

Betydninger

1
Stort ustruktureret datasæt anvendt i fortræningsfasen af en modeltræning, ofte uden manuelle labels.
- GPT-3 blev fortrænet på et fortræningsdatasæt bestående af flere terabyte tekst fra internettet. — Brown et al., 2020
- CLIP blev fortrænet på et fortræningsdatasæt af 400 millioner billed-tekst-par fra internettet. — Radford et al., 2021

Hvornår bruges det

Fortræningsdatasæt anvendes i selvovervåget eller uovervåget læring, fx til at træne sprogmodeller som GPT eller BERT på store mængder tekst. Typisk kræver datasættet minimal forbehandling og kan være hentet fra internettet.

Oprindelse

Dansk sammensætning: 'fortræning' (pretraining) + 'datasæt' (dataset).

Afledte ord

fortræningskorpus fortræningsdata

Kilder

Brown et al., 2020 - Language Models are Few-Shot Learners
Devlin et al., 2019 - BERT: Pre-training of Deep Bidirectional Transformers

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →