fortræningsmål

Et fortræningsmål er den specifikke opgave, en sprogmodel optimeres på under den indledende træning på store mængder umærkede data.

Kort fortalt

Fortræningsmål er den 'opgave' modellen lærer at løse, når den trænes på store mængder tekst, før den finjusteres til en specifik opgave.

Kategori
teknik
Niveau
øvet

Betydninger

3
  1. 1

    Maskeret sprogmodellering (masked language modeling, MLM): Modellen forudsiger tilfældigt maskerede ord i en sætning baseret på konteksten.

    • BERT anvender maskeret sprogmodellering som fortræningsmål, hvor 15% af ordene maskeres og forudsiges.Devlin et al., 2019
  2. 2

    Autoregressiv sprogmodellering (next token prediction): Modellen forudsiger det næste ord i en sekvens givet alle tidligere ord.

    • GPT-modeller trænes med et autoregressivt fortræningsmål, hvor de forudsiger hvert efterfølgende token.Radford et al., 2018
  3. 3

    Permutationssprogmodellering (permuted language modeling): Modellen forudsiger tokens i en tilfældig rækkefølge, hvilket kombinerer fordele ved MLM og autoregressiv modellering.

    • XLNet introducerer permutationssprogmodellering som fortræningsmål for at fange både venstre- og højrekontekst.Yang et al., 2019

Hvornår bruges det

Fortræningsmål bruges i præ-træningsfasen af sprogmodeller. For eksempel bruges masked language modeling (MLM) i BERT, hvor modellen skal forudsige tilfældigt maskerede ord. Et andet eksempel er next token prediction (autoregressivt mål) i GPT-modeller.

Oprindelse

Termen er en oversættelse af det engelske 'pre-training objective', hvor 'fortræning' betyder præ-træning og 'mål' betyder objective.

Kilder

3
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
  • Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)
  • XLNet: Generalized Autoregressive Pretraining for Language Understanding (Yang et al., 2019)