Chunking

Opdeling af tekst i mindre enheder (chunks) for at optimere indeksering, søgning og indlejring i sprogmodeller.

Kort fortalt

Chunking er en teknik hvor lange tekster deles op i mindre bidder, så en AI-model lettere kan arbejde med dem.

Kategori
teknik
Niveau
begynder
Udtale
/ˈtʃʌŋkɪŋ/

Betydninger

1
  1. 1

    Opdeling af en tekst i mindre, sammenhængende stykker (chunks) for at lette behandling, indeksering eller indlejring.

    • Inden indlejring opdeles dokumentet i chunks af 512 tokens.
    • En passende chunk-størrelse forbedrer præcisionen i RAG-systemer.

Hvornår bruges det

Chunking anvendes især i RAG-systemer, hvor dokumenter opdeles i chunks, inden de indlejres og gemmes i en vektordatabase. Chunk-størrelse og overlapping er vigtige parametre, der påvirker kvaliteten af genfinding.

Kodeeksempel

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = text_splitter.split_text(document)

Eksempel på chunking med LangChain, hvor dokumentet deles i chunks af 500 tegn med 50 tegns overlap.

Oprindelse

Udtrykket stammer fra kognitionspsykologien, hvor 'chunking' beskriver evnen til at gruppere information i meningsfulde enheder. Inden for NLP og AI blev det overtaget til tekstbehandling.

Afledte ord

2