sparse retrieval

Sparse retrieval betegner metoder til informationsgenfinding, der bruger sparse vektorer (overvejende nul) til at repræsentere dokumenter og forespørgsler, typisk baseret på termfrekvenser som i TF-IDF eller BM25.

Kort fortalt

Sparse retrieval er en teknik til at finde relevante dokumenter ved at matche præcise ord og deres hyppigheder, hvilket giver præcise men ikke altid semantisk fleksible resultater.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En genfindingsmetode, der repræsenterer dokumenter og forespørgsler som sparse vektorer over et ordforråd, og anvender en term-baseret scoringsfunktion (fx TF-IDF eller BM25) til at rangordne dokumenter.

    • I RAG-pipelinen anvendes sparse retrieval med BM25 til at hente de mest relevante dokumenter baseret på eksakt ordmatch.Eksempel
    • Sparse retrieval er ofte mere effektiv end dense retrieval ved lange dokumenter, fordi den udnytter termfrekvenser direkte.Eksempel

Hvornår bruges det

Sparse retrieval anvendes ofte i RAG-systemer (Retrieval-Augmented Generation) til den indledende dokumenthentning, især når præcis term-matching er vigtig, fx i juridiske eller medicinske domæner. Det bruges også som baseline eller i kombination med dense retrieval i hybride tilgange.

Formel

BM25: score(D,Q) = Σ_{i in Q} IDF(q_i) * ((k_1+1)*tf(q_i,D)) / (k_1*(1-b+b*|D|/avgdl)+tf(q_i,D)), hvor IDF(q_i) = log((N - n(q_i) + 0.5)/(n(q_i) + 0.5) + 1).

Kodeeksempel

from rank_bm25 import BM25Okapi

corpus = ["the cat sat", "the dog ran"]
tokenized_corpus = [doc.split() for doc in corpus]
bm25 = BM25Okapi(tokenized_corpus)
query = "cat sat"
tokenized_query = query.split()
scores = bm25.get_scores(tokenized_query)
print(scores)

Python-kode der viser sparse retrieval med BM25 ved hjælp af rank_bm25-biblioteket.

Oprindelse

Udtrykket 'sparse retrieval' kommer fra informationssøgning, hvor 'sparse' henviser til, at de fleste elementer i vektoren er nul (sparsomme). Metoden bygger på klassiske IR-teknikker som TF-IDF og BM25 fra 1970'erne og 1990'erne.

Afledte ord

1

Kilder

1
  • Robertson, S., & Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond.