overlap-tokens

Overlap-tokens refererer til enten (1) overlappende vinduer af tokens i sekvensbehandling eller (2) antallet af fælles tokens mellem to sæt anvendt i evalueringsmetrikker.

Kort fortalt

Overlap-tokens er en teknik, hvor man lader token-sekvenser overlappe for at bevare kontekst, eller et mål for hvor mange tokens to tekster har til fælles.

Kategori: teknik
Niveau: øvet
Udtale: /ˈoʊvərlæp ˈtoʊkənz/

Betydninger

1
Teknik i tekstbehandling, hvor en lang sekvens opdeles i overlappende vinduer af tokens, så konteksten bevares ved overgangene mellem vinduer.
- Ved brug af overlap-tokens med en vinduesstørrelse på 512 tokens og et overlap på 128 tokens sikres det, at ingen information går tabt ved biddegrænser.
- Modellen behandler lange dokumenter ved hjælp af overlap-tokens for at opretholde sammenhængende repræsentationer.
2
Antallet af fælles tokens mellem to sæt, ofte brugt som grundlag for metrikker som BLEU, ROUGE eller Jaccard-lighed.
- BLEU-scoren beregnes ud fra overlap-tokens af n-grammer mellem maskinoversættelse og referenceoversættelse.
- Overlap-tokens mellem to dokumenter kan kvantificeres ved Jaccard-koefficienten.

Hvornår bruges det

Overlap-tokens anvendes ved behandling af lange dokumenter, hvor teksten opdeles i overlappende bidder for at undgå tab af kontekst ved grænser. I evaluering bruges overlap-tokens i metrikker som BLEU og ROUGE til at måle lighed mellem genereret og reference-tekst.

Kodeeksempel

def overlapping_chunks(tokens, window_size, overlap):
    stride = window_size - overlap
    return [tokens[i:i+window_size] for i in range(0, len(tokens)-window_size+1, stride)]

Funktion der opdeler en token-liste i overlappende vinduer med angivet vinduesstørrelse og overlap.

Oprindelse

Sammensat af engelsk 'overlap' (overlapning) og 'tokens' (tegn/enheder).

Afledte ord

overlap-ratio overlap-window

Kilder

BLEU: a Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)
ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →