chunk-overlap-strategi
En teknik hvor dokumentchunks overlapper for at bevare kontekst ved splitpunkter.
Kort fortalt
Når du deler tekst op i stykker (chunks) til søgning, lader du dem overlappe lidt, så ingen information går tabt i sprækkerne.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Strategi for opdeling af tekst i overlappende segmenter for at bevare kontekst, især ved splitpunkter, når teksten forberedes til vektorisering og retrieval.
- Vi anvender en chunk-overlap-strategi på 50 tegn for at bevare sætningsintegritet.
- Chunk-overlap-strategien reducerer risikoen for at miste semantisk sammenhæng mellem chunks.
Hvornår bruges det
Bruges typisk i RAG-systemer for at undgå at klippe sætninger eller semantisk sammenhæng over i to chunks. Overlappet angives som antal tokens eller tegn.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_text(text)Eksempel på brug af chunk-overlap-strategi i Python med LangChains RecursiveCharacterTextSplitter.
Oprindelse
Fra engelsk 'chunk overlap strategy', direkte oversat med 'chunk' (stykke) og 'overlap' (overlap).