fortræningsdatasæt

Et fortræningsdatasæt er en stor samling af tekst-, billed- eller andre data, som en maskinlæringsmodel trænes på i en indledende fase (fortræning) for at lære generelle mønstre og repræsentationer.

Kort fortalt

Kort fortalt: et stort datasæt uden labels, som en model lærer grundlæggende sprog eller visuelle mønstre fra.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Stort ustruktureret datasæt anvendt i fortræningsfasen af en modeltræning, ofte uden manuelle labels.

    • GPT-3 blev fortrænet på et fortræningsdatasæt bestående af flere terabyte tekst fra internettet.Brown et al., 2020
    • CLIP blev fortrænet på et fortræningsdatasæt af 400 millioner billed-tekst-par fra internettet.Radford et al., 2021

Hvornår bruges det

Fortræningsdatasæt anvendes i selvovervåget eller uovervåget læring, fx til at træne sprogmodeller som GPT eller BERT på store mængder tekst. Typisk kræver datasættet minimal forbehandling og kan være hentet fra internettet.

Oprindelse

Dansk sammensætning: 'fortræning' (pretraining) + 'datasæt' (dataset).

Afledte ord

2

Kilder

2
  • Brown et al., 2020 - Language Models are Few-Shot Learners
  • Devlin et al., 2019 - BERT: Pre-training of Deep Bidirectional Transformers