åbent ordforråd
Et åbent ordforråd betyder, at en model kan håndtere ord eller tokens, der ikke er set under træning, typisk ved hjælp af underordsenheder eller karakterbaserede repræsentationer.
Kort fortalt
Kort fortalt: modellen kender ikke alle ord på forhånd, men kan behandle nye ord vha. dele af ord eller bogstaver.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Inden for naturlig sprogbehandling og taleteknologi betegner åbent ordforråd evnen til at repræsentere og behandle ord, der ikke indgår i modellens faste vokabular, ofte via underordssegmentering eller karakter-niveaumodellering.
- Modellen anvender et åbent ordforråd med BPE-kodning, så den kan stave til ord som 'åbent' selvom det ikke var i træningsdata.
- Talegenkendelsessystemer med åbent ordforråd kan genkende proprier og nye ord uden at kræve en komplet ordbog.
Hvornår bruges det
Åbent ordforråd anvendes i sprogmodeller og talegenkendelse, hvor det er umuligt at inkludere alle mulige ord i træningsdata. I stedet benyttes teknikker som Byte-Pair Encoding (BPE) eller Unigram Language Model til at opdele ord i delord. Modellen kan dermed generere eller genkende ukendte ord ved at kombinere kendte underord.
Oprindelse
Udtrykket kommer fra lingvistik og NLP, hvor et 'lukket ordforråd' refererer til et fikseret sæt af ord, mens 'åbent' indikerer fleksibilitet til at håndtere nye ord.