chunk-størrelse

Størrelsen af de tekststykker (chunks) som et dokument opdeles i før indeksering eller behandling.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Parameter i RAG-systemer og tekstbehandling der bestemmer hvor mange tokens eller tegn hvert stykke (chunk) af et dokument skal indeholde. Valg af chunk-størrelse påvirker både kvaliteten af retrieval og modellens forståelse af kontekst.

    • En chunk-størrelse på 512 tokens er typisk for RAG-systemer.
    • For lange dokumenter bør chunk-størrelsen vælges så den matcher modellens kontekstvindue.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_splitter.split_documents(documents)

Eksempel fra LangChain der opsætter en text splitter med en chunk-størrelse på 1000 tegn.

Oprindelse

Fra engelsk 'chunk size', sammensat af 'chunk' (stykke) og 'størrelse'.

Afledte ord

2