chunk-størrelsesstrategi

Strategi til valg af størrelsen på de segmenter (chunks), som et dokument opdeles i før indeksering i en RAG-pipeline, med afvejning mellem informationsmængde og præcision.

Kort fortalt

En metode til at bestemme, hvor store eller små bidder et dokument skal skæres i, når man forbereder data til en AI-model, så den bedst kan finde og bruge relevant information.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Den bevidste tilgang til valg af chunk-størrelse ved opdeling af dokumenter til indholdsindeksering i et RAG-system, typisk baseret på antal tokens, karakterer eller semantisk enhed, med det formål at maksimere genfindingseffektivitet.

    • En effektiv chunk-størrelsesstrategi for tekniske manualer anvender en fast størrelse på 512 tokens med 50 % overlap for at bevare kontekst.
    • Semantisk chunking er en avanceret chunk-størrelsesstrategi, der opdeler tekst ved naturlige grænser som afsnit.

Hvornår bruges det

Chunk-størrelsesstrategi bruges i RAG-systemer til at optimere balancen mellem kontekst og præcision. Mindre chunks giver mere præcise matches men mangler kontekst; større chunks giver bedre kontekst men kan indeholde irrelevant information. Valget afhænger af dokumenttype og model.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    length_function=len,
)
chunks = text_splitter.split_text(document)

Eksempel på brug af en chunk-størrelsesstrategi med fast størrelse i LangChain.

Oprindelse

Sammensætning af engelsk 'chunk' (bid/stykke), dansk 'størrelse' og 'strategi', fra RAG-litteraturen.