Chunking
Opdeling af tekst i mindre enheder (chunks) for at optimere indeksering, søgning og indlejring i sprogmodeller.
Kort fortalt
Chunking er en teknik hvor lange tekster deles op i mindre bidder, så en AI-model lettere kan arbejde med dem.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- /ˈtʃʌŋkɪŋ/
Betydninger
1- 1
Opdeling af en tekst i mindre, sammenhængende stykker (chunks) for at lette behandling, indeksering eller indlejring.
- Inden indlejring opdeles dokumentet i chunks af 512 tokens.
- En passende chunk-størrelse forbedrer præcisionen i RAG-systemer.
Hvornår bruges det
Chunking anvendes især i RAG-systemer, hvor dokumenter opdeles i chunks, inden de indlejres og gemmes i en vektordatabase. Chunk-størrelse og overlapping er vigtige parametre, der påvirker kvaliteten af genfinding.
Kodeeksempel
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = text_splitter.split_text(document)Eksempel på chunking med LangChain, hvor dokumentet deles i chunks af 500 tegn med 50 tegns overlap.
Oprindelse
Udtrykket stammer fra kognitionspsykologien, hvor 'chunking' beskriver evnen til at gruppere information i meningsfulde enheder. Inden for NLP og AI blev det overtaget til tekstbehandling.