overlap-tokens

Overlap-tokens refererer til enten (1) overlappende vinduer af tokens i sekvensbehandling eller (2) antallet af fælles tokens mellem to sæt anvendt i evalueringsmetrikker.

Kort fortalt

Overlap-tokens er en teknik, hvor man lader token-sekvenser overlappe for at bevare kontekst, eller et mål for hvor mange tokens to tekster har til fælles.

Kategori
teknik
Niveau
øvet
Udtale
/ˈoʊvərlæp ˈtoʊkənz/

Betydninger

2
  1. 1

    Teknik i tekstbehandling, hvor en lang sekvens opdeles i overlappende vinduer af tokens, så konteksten bevares ved overgangene mellem vinduer.

    • Ved brug af overlap-tokens med en vinduesstørrelse på 512 tokens og et overlap på 128 tokens sikres det, at ingen information går tabt ved biddegrænser.
    • Modellen behandler lange dokumenter ved hjælp af overlap-tokens for at opretholde sammenhængende repræsentationer.
  2. 2

    Antallet af fælles tokens mellem to sæt, ofte brugt som grundlag for metrikker som BLEU, ROUGE eller Jaccard-lighed.

    • BLEU-scoren beregnes ud fra overlap-tokens af n-grammer mellem maskinoversættelse og referenceoversættelse.
    • Overlap-tokens mellem to dokumenter kan kvantificeres ved Jaccard-koefficienten.

Hvornår bruges det

Overlap-tokens anvendes ved behandling af lange dokumenter, hvor teksten opdeles i overlappende bidder for at undgå tab af kontekst ved grænser. I evaluering bruges overlap-tokens i metrikker som BLEU og ROUGE til at måle lighed mellem genereret og reference-tekst.

Kodeeksempel

def overlapping_chunks(tokens, window_size, overlap):
    stride = window_size - overlap
    return [tokens[i:i+window_size] for i in range(0, len(tokens)-window_size+1, stride)]

Funktion der opdeler en token-liste i overlappende vinduer med angivet vinduesstørrelse og overlap.

Oprindelse

Sammensat af engelsk 'overlap' (overlapning) og 'tokens' (tegn/enheder).

Afledte ord

2

Kilder

2
  • BLEU: a Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)
  • ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)