hybrid retrieval-pipeline

En søgepipeline der kombinerer to eller flere forskellige retrieval-metoder — typisk en semantisk (dense) og en leksikalsk (sparse) — for at forbedre kvaliteten af de hentede dokumenter i en RAG-arkitektur.

Kort fortalt

Kort fortalt: En hybrid retrieval-pipeline bruger både nøjagtig ordsøgning og forståelse af betydning for at finde de mest relevante dokumenter.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En søgepipeline der kombinerer to eller flere forskellige retrieval-metoder — typisk en semantisk (dense) og en leksikalsk (sparse) — for at forbedre kvaliteten af de hentede dokumenter i en RAG-arkitektur.

    • Hybrid retrieval-pipeline med BM25 og dense embeddings giver højere recall end nogen af metoderne alene.RAG-praksis, 2024
    • Systemets hybrid retrieval-pipeline kombinerer TF-IDF og en transformer-baseret re-ranker.Teknisk dokumentation, 2024

Hvornår bruges det

Bruges typisk i RAG-systemer for at udnytte styrkerne ved både leksikalsk søgning (f.eks. BM25) og semantisk søgning (f.eks. embeddings). Først hentes et større sæt kandidater med den hurtige metode, derefter rerankes de med en mere præcis metode. Dette giver bedre dækning og præcision samtidig.

Kodeeksempel

from haystack import Pipeline
from haystack.nodes import BM25Retriever, EmbeddingRetriever

pipe = Pipeline()
bm25 = BM25Retriever()
dense = EmbeddingRetriever(document_store=store, embedding_model='sentence-transformers/all-MiniLM-L6-v2')
pipe.add_node(component=bm25, name="BM25", inputs=["Query"])
pipe.add_node(component=dense, name="Dense", inputs=["Query"])
# Combine results (simplified)

Eksempel på en hybrid retrieval-pipeline i Haystack, der kombinerer BM25 og embeddingsøgning.

Oprindelse

Sammensat af 'hybrid' (blanding) og 'retrieval-pipeline' (søgepipeline). Udtrykket er opstået i forbindelse med RAG-arkitekturer og informationssøgning.

Kilder

2
  • Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
  • Karpukhin, V., et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering.