mask token

Et specialtoken brugt i masked language modeling, som erstatter ord i inputtet, så modellen skal forudsige dem.

Kort fortalt

Et [MASK]-token bruges til at skjule ord i en sætning, så en AI-model lærer at forudsige dem ud fra konteksten.

Kategori
begreb
Niveau
begynder
Udtale
/mæsk ˈtoʊkən/

Betydninger

1
  1. 1

    Et særligt token (typisk betegnet [MASK]) der i en sprogmodel bruges til at markere et ord der skal forudsiges af modellen i masked language modeling.

    • I træning af BERT erstattes 15% af tokens med [MASK].
    • Ved inferens kan man bruge [MASK] til at teste modellens forudsigelser, fx 'Hovedstaden i Danmark er [MASK]'.

Hvornår bruges det

Mask token anvendes primært i præ-træning af sprogmodeller som BERT, hvor en andel af input-tokens tilfældigt erstattes med [MASK]. Modellen trænes til at forudsige de maskerede ord baseret på de omgivende ord. Under inferens bruges mask token sjældent, medmindre man specifikt ønsker at udfylde huller.

Kodeeksempel

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "The man [MASK] to the store."
inputs = tokenizer(text, return_tensors='pt')
print(inputs['input_ids'])

Ovenstående kode viser, hvordan en sætning med [MASK] token tokeniseres med BERT-tokenizeren. Tokenet [MASK] repræsenteres af token ID 103 i BERT.

Oprindelse

Begrebet stammer fra masked language modeling (MLM), introduceret i BERT-papiret (Devlin et al., 2019), hvor et særligt [MASK]-token blev defineret til at erstatte ord under træning.

Kilder

1
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding