chunk-størrelse

Antallet af tokens eller tegn pr. segment ved opdeling af et dokument til brug i retrieval-augmented generation.

Kort fortalt

Hvor stor en bid tekst du skærer et dokument i, før du gemmer det i en vektordatabase.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Den numeriske værdi, der angiver længden af hvert segment (chunk) når et dokument opdeles til indeksering og retrieval i en vektordatabase. Måles typisk i tokens eller tegn.

    • Ved indeksering af juridiske dokumenter bør chunk-størrelsen være omkring 512 tokens for at bevare sætningsstrukturen.
    • En for stor chunk-størrelse kan føre til at relevante passager bliver overset i retrieval.

Hvornår bruges det

Bruges ved forberedelse af dokumenter til RAG-systemer. Chunk-størrelsen påvirker retrieval-kvaliteten: for små chunks mangler kontekst, for store chunks indeholder irrelevant information.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
)
chunks = splitter.split_text(tekst)

Eksempel på brug af LangChains RecursiveCharacterTextSplitter med chunk-størrelse 500 og overlap 50.

Oprindelse

Fra engelsk 'chunk' (bid) og dansk 'størrelse'.

Afledte ord

2

Kilder

2
  • LangChain Documentation - Text Splitters
  • Pinecone Learning - Chunking Strategies