overlap-tokens
Overlap-tokens refererer til enten (1) overlappende vinduer af tokens i sekvensbehandling eller (2) antallet af fælles tokens mellem to sæt anvendt i evalueringsmetrikker.
Kort fortalt
Overlap-tokens er en teknik, hvor man lader token-sekvenser overlappe for at bevare kontekst, eller et mål for hvor mange tokens to tekster har til fælles.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈoʊvərlæp ˈtoʊkənz/
Betydninger
2- 1
Teknik i tekstbehandling, hvor en lang sekvens opdeles i overlappende vinduer af tokens, så konteksten bevares ved overgangene mellem vinduer.
- Ved brug af overlap-tokens med en vinduesstørrelse på 512 tokens og et overlap på 128 tokens sikres det, at ingen information går tabt ved biddegrænser.
- Modellen behandler lange dokumenter ved hjælp af overlap-tokens for at opretholde sammenhængende repræsentationer.
- 2
Antallet af fælles tokens mellem to sæt, ofte brugt som grundlag for metrikker som BLEU, ROUGE eller Jaccard-lighed.
- BLEU-scoren beregnes ud fra overlap-tokens af n-grammer mellem maskinoversættelse og referenceoversættelse.
- Overlap-tokens mellem to dokumenter kan kvantificeres ved Jaccard-koefficienten.
Hvornår bruges det
Overlap-tokens anvendes ved behandling af lange dokumenter, hvor teksten opdeles i overlappende bidder for at undgå tab af kontekst ved grænser. I evaluering bruges overlap-tokens i metrikker som BLEU og ROUGE til at måle lighed mellem genereret og reference-tekst.
Kodeeksempel
def overlapping_chunks(tokens, window_size, overlap):
stride = window_size - overlap
return [tokens[i:i+window_size] for i in range(0, len(tokens)-window_size+1, stride)]Funktion der opdeler en token-liste i overlappende vinduer med angivet vinduesstørrelse og overlap.
Oprindelse
Sammensat af engelsk 'overlap' (overlapning) og 'tokens' (tegn/enheder).
Afledte ord
2Kilder
2- BLEU: a Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)
- ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)