chunk-størrelsesstrategi
Strategi til valg af størrelsen på de segmenter (chunks), som et dokument opdeles i før indeksering i en RAG-pipeline, med afvejning mellem informationsmængde og præcision.
Kort fortalt
En metode til at bestemme, hvor store eller små bidder et dokument skal skæres i, når man forbereder data til en AI-model, så den bedst kan finde og bruge relevant information.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Den bevidste tilgang til valg af chunk-størrelse ved opdeling af dokumenter til indholdsindeksering i et RAG-system, typisk baseret på antal tokens, karakterer eller semantisk enhed, med det formål at maksimere genfindingseffektivitet.
- En effektiv chunk-størrelsesstrategi for tekniske manualer anvender en fast størrelse på 512 tokens med 50 % overlap for at bevare kontekst.
- Semantisk chunking er en avanceret chunk-størrelsesstrategi, der opdeler tekst ved naturlige grænser som afsnit.
Hvornår bruges det
Chunk-størrelsesstrategi bruges i RAG-systemer til at optimere balancen mellem kontekst og præcision. Mindre chunks giver mere præcise matches men mangler kontekst; større chunks giver bedre kontekst men kan indeholde irrelevant information. Valget afhænger af dokumenttype og model.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=500,
chunk_overlap=100,
length_function=len,
)
chunks = text_splitter.split_text(document)Eksempel på brug af en chunk-størrelsesstrategi med fast størrelse i LangChain.
Oprindelse
Sammensætning af engelsk 'chunk' (bid/stykke), dansk 'størrelse' og 'strategi', fra RAG-litteraturen.