chunk-størrelse

Antallet af tokens eller tegn pr. segment ved opdeling af et dokument til brug i retrieval-augmented generation.

Kort fortalt

Hvor stor en bid tekst du skærer et dokument i, før du gemmer det i en vektordatabase.

Kategori: teknik
Niveau: øvet

Betydninger

1
Den numeriske værdi, der angiver længden af hvert segment (chunk) når et dokument opdeles til indeksering og retrieval i en vektordatabase. Måles typisk i tokens eller tegn.
- Ved indeksering af juridiske dokumenter bør chunk-størrelsen være omkring 512 tokens for at bevare sætningsstrukturen.
- En for stor chunk-størrelse kan føre til at relevante passager bliver overset i retrieval.

Hvornår bruges det

Bruges ved forberedelse af dokumenter til RAG-systemer. Chunk-størrelsen påvirker retrieval-kvaliteten: for små chunks mangler kontekst, for store chunks indeholder irrelevant information.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
)
chunks = splitter.split_text(tekst)

Eksempel på brug af LangChains RecursiveCharacterTextSplitter med chunk-størrelse 500 og overlap 50.

Oprindelse

Fra engelsk 'chunk' (bid) og dansk 'størrelse'.

Afledte ord

chunk-størrelsesstrategi chunk-overlap

Kilder

LangChain Documentation - Text Splitters
Pinecone Learning - Chunking Strategies

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →