chunk-størrelse
Størrelsen af de tekststykker (chunks) som et dokument opdeles i før indeksering eller behandling.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Parameter i RAG-systemer og tekstbehandling der bestemmer hvor mange tokens eller tegn hvert stykke (chunk) af et dokument skal indeholde. Valg af chunk-størrelse påvirker både kvaliteten af retrieval og modellens forståelse af kontekst.
- En chunk-størrelse på 512 tokens er typisk for RAG-systemer.
- For lange dokumenter bør chunk-størrelsen vælges så den matcher modellens kontekstvindue.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_splitter.split_documents(documents)Eksempel fra LangChain der opsætter en text splitter med en chunk-størrelse på 1000 tegn.
Oprindelse
Fra engelsk 'chunk size', sammensat af 'chunk' (stykke) og 'størrelse'.