chunk-overlap
Chunk-overlap er den mængde af tegn eller tokens, der deles mellem to på hinanden følgende tekstbidder ved opdeling af et dokument.
Kort fortalt
Når man deler en lang tekst i mindre bidder, lader man lidt af teksten gå igen i næste bid for ikke at miste sammenhæng.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- tʃʌŋk ˈoʊvərlæp
Betydninger
1- 1
Den del af et tekststykke, der gentages i det efterfølgende tekststykke ved opdeling af et dokument i mindre bidder (chunks), med henblik på at bevare semantisk sammenhæng.
- Ved chunking med 50% overlap gentages halvdelen af teksten i efterfølgende chunk.
- Et overlap på 100 tokens sikrer, at sætninger ikke bliver delt midt over.
Hvornår bruges det
Chunk-overlap bruges primært i RAG-systemer og tekstindeksering for at bevare kontekst mellem chunks. En typisk overlapstørrelse er 10-20% af chunk-størrelsen.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
chunks = splitter.split_text("Din lange tekst her...")Eksempel på brug af chunk-overlap i LangChain's RecursiveCharacterTextSplitter.
Oprindelse
Termen er sammensat af engelsk 'chunk' (bid) og 'overlap' (overlap) og opstod i forbindelse med tekstbehandling og informationssøgning.