chunk-størrelsesparameter

Parameter der bestemmer den maksimale størrelse af tekststykker (chunks) ved opdeling af dokumenter i forbindelse med indeksering.

Kort fortalt

En indstilling der bestemmer hvor store bidder et dokument skal skæres i, når det forberedes til en søgbar database.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Den indstilling der angiver maksimalt antal tegn eller tokens per tekststykke (chunk) ved opdeling af dokumenter til informationssøgning eller tekstbehandling.

    • I vores RAG-pipeline satte vi chunk-størrelsesparameteren til 500 tegn for at få en passende balance mellem detaljer og kontekst.
    • En for lille chunk-størrelsesparameter kan føre til at vigtig kontekst går tabt mellem chunks.

Hvornår bruges det

Chunk-størrelsesparameteren bruges i RAG-pipelines og tekstinddelingsværktøjer for at balancere mellem detaljeringsgrad og kontekst. En mindre chunk-størrelse giver finere granularitet men kan miste kontekst; en større giver mere kontekst men mindre præcision.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # chunk-størrelsesparameter
    chunk_overlap=50
)
chunks = splitter.split_text(dokument_tekst)

Eksempel på opsætning af chunk-størrelsesparameteren i LangChain.

Oprindelse

Termen er dannet af engelsk 'chunk' (stykke), dansk 'størrelse' og 'parameter' (indstillingsværdi).

Kilder

2
  • LangChain dokumentation om tekstsplittere
  • RAG from Scratch (LangChain blog)