chunk-størrelse
Antallet af tokens eller tegn pr. segment ved opdeling af et dokument til brug i retrieval-augmented generation.
Kort fortalt
Hvor stor en bid tekst du skærer et dokument i, før du gemmer det i en vektordatabase.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Den numeriske værdi, der angiver længden af hvert segment (chunk) når et dokument opdeles til indeksering og retrieval i en vektordatabase. Måles typisk i tokens eller tegn.
- Ved indeksering af juridiske dokumenter bør chunk-størrelsen være omkring 512 tokens for at bevare sætningsstrukturen.
- En for stor chunk-størrelse kan føre til at relevante passager bliver overset i retrieval.
Hvornår bruges det
Bruges ved forberedelse af dokumenter til RAG-systemer. Chunk-størrelsen påvirker retrieval-kvaliteten: for små chunks mangler kontekst, for store chunks indeholder irrelevant information.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=500,
chunk_overlap=50,
length_function=len,
)
chunks = splitter.split_text(tekst)Eksempel på brug af LangChains RecursiveCharacterTextSplitter med chunk-størrelse 500 og overlap 50.
Oprindelse
Fra engelsk 'chunk' (bid) og dansk 'størrelse'.
Afledte ord
2Kilder
2- LangChain Documentation - Text Splitters
- Pinecone Learning - Chunking Strategies