chunk-overlap

Chunk-overlap er den mængde af tegn eller tokens, der deles mellem to på hinanden følgende tekstbidder ved opdeling af et dokument.

Kort fortalt

Når man deler en lang tekst i mindre bidder, lader man lidt af teksten gå igen i næste bid for ikke at miste sammenhæng.

Kategori
teknik
Niveau
begynder
Udtale
tʃʌŋk ˈoʊvərlæp

Betydninger

1
  1. 1

    Den del af et tekststykke, der gentages i det efterfølgende tekststykke ved opdeling af et dokument i mindre bidder (chunks), med henblik på at bevare semantisk sammenhæng.

    • Ved chunking med 50% overlap gentages halvdelen af teksten i efterfølgende chunk.
    • Et overlap på 100 tokens sikrer, at sætninger ikke bliver delt midt over.

Hvornår bruges det

Chunk-overlap bruges primært i RAG-systemer og tekstindeksering for at bevare kontekst mellem chunks. En typisk overlapstørrelse er 10-20% af chunk-størrelsen.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
chunks = splitter.split_text("Din lange tekst her...")

Eksempel på brug af chunk-overlap i LangChain's RecursiveCharacterTextSplitter.

Oprindelse

Termen er sammensat af engelsk 'chunk' (bid) og 'overlap' (overlap) og opstod i forbindelse med tekstbehandling og informationssøgning.

Afledte ord

2

Kilder

1