token-grænseoverskridelse
Situation hvor en tokenisation af en tekst resulterer i at en meningsfuld enhed deles på tværs af to segmenter, fx i forbindelse med vinduesbaseret behandling af lange dokumenter.
Kort fortalt
Når en token skæres over af en grænse mellem to vinduer i en lang tekst, skal man sørge for at rekonstruere den.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Forekomst hvor en token deles af en grænse mellem to sammenhængende tekstsegmenter, hvilket kræver særlig håndtering for at bevare den semantiske helhed.
- Ved brug af en glidende vinduestilgang skal man håndtere token-grænseoverskridelser for at sikre sammenhængende output.
- Når en lang tekst deles i bidder, kan token-grænseoverskridelser føre til at beskeder bliver misforstået.
Hvornår bruges det
Ved behandling af lange dokumenter med en fast kontekststørrelse optræder token-grænseoverskridelser, når vinduesgrænsen falder midt i en token. For at undgå informationstab anvendes typisk overlappende vinduer eller intelligent segmentering.
Oprindelse
Sammensætning af 'token' (eng. for tegnfølge) og 'grænseoverskridelse'.