chunk-overlap-strategi

En teknik hvor dokumentchunks overlapper for at bevare kontekst ved splitpunkter.

Kort fortalt

Når du deler tekst op i stykker (chunks) til søgning, lader du dem overlappe lidt, så ingen information går tabt i sprækkerne.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Strategi for opdeling af tekst i overlappende segmenter for at bevare kontekst, især ved splitpunkter, når teksten forberedes til vektorisering og retrieval.

    • Vi anvender en chunk-overlap-strategi på 50 tegn for at bevare sætningsintegritet.
    • Chunk-overlap-strategien reducerer risikoen for at miste semantisk sammenhæng mellem chunks.

Hvornår bruges det

Bruges typisk i RAG-systemer for at undgå at klippe sætninger eller semantisk sammenhæng over i to chunks. Overlappet angives som antal tokens eller tegn.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_text(text)

Eksempel på brug af chunk-overlap-strategi i Python med LangChains RecursiveCharacterTextSplitter.

Oprindelse

Fra engelsk 'chunk overlap strategy', direkte oversat med 'chunk' (stykke) og 'overlap' (overlap).

Afledte ord

2