åbent ordforråd

Et åbent ordforråd betyder, at en model kan håndtere ord eller tokens, der ikke er set under træning, typisk ved hjælp af underordsenheder eller karakterbaserede repræsentationer.

Kort fortalt

Kort fortalt: modellen kender ikke alle ord på forhånd, men kan behandle nye ord vha. dele af ord eller bogstaver.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Inden for naturlig sprogbehandling og taleteknologi betegner åbent ordforråd evnen til at repræsentere og behandle ord, der ikke indgår i modellens faste vokabular, ofte via underordssegmentering eller karakter-niveaumodellering.

    • Modellen anvender et åbent ordforråd med BPE-kodning, så den kan stave til ord som 'åbent' selvom det ikke var i træningsdata.
    • Talegenkendelsessystemer med åbent ordforråd kan genkende proprier og nye ord uden at kræve en komplet ordbog.

Hvornår bruges det

Åbent ordforråd anvendes i sprogmodeller og talegenkendelse, hvor det er umuligt at inkludere alle mulige ord i træningsdata. I stedet benyttes teknikker som Byte-Pair Encoding (BPE) eller Unigram Language Model til at opdele ord i delord. Modellen kan dermed generere eller genkende ukendte ord ved at kombinere kendte underord.

Oprindelse

Udtrykket kommer fra lingvistik og NLP, hvor et 'lukket ordforråd' refererer til et fikseret sæt af ord, mens 'åbent' indikerer fleksibilitet til at håndtere nye ord.

Afledte ord

2