sparse retrieval
Sparse retrieval betegner metoder til informationsgenfinding, der bruger sparse vektorer (overvejende nul) til at repræsentere dokumenter og forespørgsler, typisk baseret på termfrekvenser som i TF-IDF eller BM25.
Kort fortalt
Sparse retrieval er en teknik til at finde relevante dokumenter ved at matche præcise ord og deres hyppigheder, hvilket giver præcise men ikke altid semantisk fleksible resultater.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En genfindingsmetode, der repræsenterer dokumenter og forespørgsler som sparse vektorer over et ordforråd, og anvender en term-baseret scoringsfunktion (fx TF-IDF eller BM25) til at rangordne dokumenter.
- I RAG-pipelinen anvendes sparse retrieval med BM25 til at hente de mest relevante dokumenter baseret på eksakt ordmatch. — Eksempel
- Sparse retrieval er ofte mere effektiv end dense retrieval ved lange dokumenter, fordi den udnytter termfrekvenser direkte. — Eksempel
Hvornår bruges det
Sparse retrieval anvendes ofte i RAG-systemer (Retrieval-Augmented Generation) til den indledende dokumenthentning, især når præcis term-matching er vigtig, fx i juridiske eller medicinske domæner. Det bruges også som baseline eller i kombination med dense retrieval i hybride tilgange.
Formel
BM25: score(D,Q) = Σ_{i in Q} IDF(q_i) * ((k_1+1)*tf(q_i,D)) / (k_1*(1-b+b*|D|/avgdl)+tf(q_i,D)), hvor IDF(q_i) = log((N - n(q_i) + 0.5)/(n(q_i) + 0.5) + 1).Kodeeksempel
from rank_bm25 import BM25Okapi
corpus = ["the cat sat", "the dog ran"]
tokenized_corpus = [doc.split() for doc in corpus]
bm25 = BM25Okapi(tokenized_corpus)
query = "cat sat"
tokenized_query = query.split()
scores = bm25.get_scores(tokenized_query)
print(scores)Python-kode der viser sparse retrieval med BM25 ved hjælp af rank_bm25-biblioteket.
Oprindelse
Udtrykket 'sparse retrieval' kommer fra informationssøgning, hvor 'sparse' henviser til, at de fleste elementer i vektoren er nul (sparsomme). Metoden bygger på klassiske IR-teknikker som TF-IDF og BM25 fra 1970'erne og 1990'erne.
Afledte ord
1Kilder
1- Robertson, S., & Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond.