chunk-overlap-tokens

Antallet af tokens, der overlapper mellem på hinanden følgende tekstchunks i en chunking-strategi.

Kort fortalt

Chunk-overlap-tokens er de tokens, der deles mellem to tilstødende bidder af tekst, så konteksten bevares på tværs af chunk-grænser.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Antallet af tokens, der gentages i slutningen af én chunk og begyndelsen af den næste for at bevare kontekstuel sammenhæng.

    • En chunk-overlap-tokens på 50 betyder, at de sidste 50 tokens i en chunk også indgår som de første 50 i næste chunk.
    • Ved at sætte chunk-overlap-tokens til 128 sikres det, at sætninger opdelt på tværs af chunks stadig har kontekst.

Hvornår bruges det

Bruges ved chunking af tekst til RAG-systemer eller sprogmodeller, hvor et overlap sikrer, at vigtig information ikke går tabt i skæringspunktet mellem chunks. Værdien vælges typisk som en brøkdel af chunk-størrelsen, fx 10-20%.

Kodeeksempel

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,  # chunk-overlap-tokens
    separator=" "
)
chunks = text_splitter.split_text(long_text)

Eksempel på chunking med overlap på 200 tokens ved hjælp af LangChains CharacterTextSplitter.

Oprindelse

Sammensat af 'chunk' (bid), 'overlap' (overlap) og 'tokens' (tokens), fra engelsk. Termen stammer fra dokumentbehandling og informationssøgning.

Kilder

1