token-grænseoverskridelse

Situation hvor en tokenisation af en tekst resulterer i at en meningsfuld enhed deles på tværs af to segmenter, fx i forbindelse med vinduesbaseret behandling af lange dokumenter.

Kort fortalt

Når en token skæres over af en grænse mellem to vinduer i en lang tekst, skal man sørge for at rekonstruere den.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Forekomst hvor en token deles af en grænse mellem to sammenhængende tekstsegmenter, hvilket kræver særlig håndtering for at bevare den semantiske helhed.

    • Ved brug af en glidende vinduestilgang skal man håndtere token-grænseoverskridelser for at sikre sammenhængende output.
    • Når en lang tekst deles i bidder, kan token-grænseoverskridelser føre til at beskeder bliver misforstået.

Hvornår bruges det

Ved behandling af lange dokumenter med en fast kontekststørrelse optræder token-grænseoverskridelser, når vinduesgrænsen falder midt i en token. For at undgå informationstab anvendes typisk overlappende vinduer eller intelligent segmentering.

Oprindelse

Sammensætning af 'token' (eng. for tegnfølge) og 'grænseoverskridelse'.