chunk-størrelsesparameter
Parameter der bestemmer den maksimale størrelse af tekststykker (chunks) ved opdeling af dokumenter i forbindelse med indeksering.
Kort fortalt
En indstilling der bestemmer hvor store bidder et dokument skal skæres i, når det forberedes til en søgbar database.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Den indstilling der angiver maksimalt antal tegn eller tokens per tekststykke (chunk) ved opdeling af dokumenter til informationssøgning eller tekstbehandling.
- I vores RAG-pipeline satte vi chunk-størrelsesparameteren til 500 tegn for at få en passende balance mellem detaljer og kontekst.
- En for lille chunk-størrelsesparameter kan føre til at vigtig kontekst går tabt mellem chunks.
Hvornår bruges det
Chunk-størrelsesparameteren bruges i RAG-pipelines og tekstinddelingsværktøjer for at balancere mellem detaljeringsgrad og kontekst. En mindre chunk-størrelse giver finere granularitet men kan miste kontekst; en større giver mere kontekst men mindre præcision.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=500, # chunk-størrelsesparameter
chunk_overlap=50
)
chunks = splitter.split_text(dokument_tekst)Eksempel på opsætning af chunk-størrelsesparameteren i LangChain.
Oprindelse
Termen er dannet af engelsk 'chunk' (stykke), dansk 'størrelse' og 'parameter' (indstillingsværdi).
Kilder
2- LangChain dokumentation om tekstsplittere
- RAG from Scratch (LangChain blog)