sparse retrieval-model

En model der bruger sparse vektorer (mange nuller) til at repræsentere dokumenter og forespørgsler, og matcher dem ved fælles tokens.

Kort fortalt

En sparse retrieval-model finder relevante dokumenter ved at lede efter de samme ord (tokens) i forespørgsel og dokument, ligesom når du søger med stikord i en bibliotekskatalog.

Kategori: teknik
Niveau: øvet

Betydninger

1
Klassisk retrieval-model med håndlavede statistiske vægte som TF-IDF eller BM25, baseret på ordforekomster.
- BM25 er den mest udbredte sparse retrieval-model i moderne søgemaskiner. — Informationssøgningslærebog, 2009
- TF-IDF er en tidlig form for sparse retrieval, der vægter sjældne ord højere. — Introduktion til informationssøgning, 2008
2
Lært retrieval-model der via neurale netværk producerer sparse vektorer med dynamisk vægtning, eksempelvis SPLADE.
- SPLADE anvender en lært sparsitet til at skabe forklarlige søgeresultater. — SPLADE artikel, 2021
- Lærte sparse modeller kan give bedre genkald end klassiske BM25 ved at fange semantiske relationer. — Forskningsoversigt, 2022

Hvornår bruges det

Bruges i RAG-systemer og søgemaskiner som et alternativ til dense retrieval, især når der er behov for eksakt match på specifikke termer eller en forklarlig søgning. Modellen er hurtig og skalerbar til store korpus.

Formel

BM25: score(D,Q) = sum_{t in Q} IDF(t) * (k1+1)*tf(t,D) / (k1*(1-b+b*|D|/avgdl) + tf(t,D))

Kodeeksempel

from rank_bm25 import BM25Okapi
corpus = ["dokument 1", "dokument 2"]
tokenized_corpus = [doc.split() for doc in corpus]
bm25 = BM25Okapi(tokenized_corpus)
query = "dokument 1".split()
scores = bm25.get_scores(query)
print(scores)

Eksempel på brug af BM25-biblioteket rank_bm25 til at beregne scores for en forespørgsel.

Oprindelse

'Sparse' betyder tynd eller spredt; vektorerne har de fleste elementer som nul. 'Retrieval' refererer til genfinding af information. Modellen stammer fra TF-IDF og blev videreudviklet til BM25.

Afledte ord

bag-of-words BM25 SPLADE

Kilder

Robertson, S. E., & Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond.
Formal, T., et al. (2021). SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking.
Manning, C. D., et al. (2008). Introduction to Information Retrieval.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →