chunk-overlap-tokens
Antallet af tokens, der overlapper mellem på hinanden følgende tekstchunks i en chunking-strategi.
Kort fortalt
Chunk-overlap-tokens er de tokens, der deles mellem to tilstødende bidder af tekst, så konteksten bevares på tværs af chunk-grænser.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Antallet af tokens, der gentages i slutningen af én chunk og begyndelsen af den næste for at bevare kontekstuel sammenhæng.
- En chunk-overlap-tokens på 50 betyder, at de sidste 50 tokens i en chunk også indgår som de første 50 i næste chunk.
- Ved at sætte chunk-overlap-tokens til 128 sikres det, at sætninger opdelt på tværs af chunks stadig har kontekst.
Hvornår bruges det
Bruges ved chunking af tekst til RAG-systemer eller sprogmodeller, hvor et overlap sikrer, at vigtig information ikke går tabt i skæringspunktet mellem chunks. Værdien vælges typisk som en brøkdel af chunk-størrelsen, fx 10-20%.
Kodeeksempel
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
chunk_size=1000,
chunk_overlap=200, # chunk-overlap-tokens
separator=" "
)
chunks = text_splitter.split_text(long_text)Eksempel på chunking med overlap på 200 tokens ved hjælp af LangChains CharacterTextSplitter.
Oprindelse
Sammensat af 'chunk' (bid), 'overlap' (overlap) og 'tokens' (tokens), fra engelsk. Termen stammer fra dokumentbehandling og informationssøgning.