embeddingmodel

En model der konverterer sprogdata (ord, sætninger, dokumenter) til tætte vektorer (embeddings) i et kontinuerligt vektorrum, så semantisk lighed afspejles i afstanden mellem vektorerne.

Kategori
model
Niveau
øvet

Betydninger

3
  1. 1

    En model der genererer faste vektorrepræsentationer af sprogenheder som ord, sætninger eller dokumenter, hvor semantisk lighed svarer til geometrisk nærhed.

    • En embeddingmodel som Sentence-BERT kan omdanne en sætning til en 768-dimensionel vektor.fagsprog, 2024
    • Embeddingmodeller bruges ofte i informationssøgning til at finde dokumenter med lignende betydning.forskningsartikel, 2023
  2. 2

    Specifikt et lag i en neural netværksarkitektur, der mapper tokens til tætte vektorer som en del af en større model (f.eks. i en transformer).

    • I en transformer-model er embeddinglaget det første lag, der konverterer input-tokens til embeddings.lærebog, 2022
  3. 3

    En model trænet specifikt til at producere embeddings til brug i retrieval-augmented generation (RAG) eller andre opgaver, ofte finjusteret for at forbedre semantisk sammenligning.

    • I en RAG-pipeline anvendes en embeddingmodel til at indeksere dokumenter og finde relevante passager baseret på en forespørgsels embedding.blogindlæg, 2024

Kodeeksempel

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embedding = model.encode('embeddingmodel er nyttig')
print(embedding.shape)  # (384,)

Eksempel på brug af en embeddingmodel (Sentence-BERT) til at generere en vektor for en sætning.

Oprindelse

Sammensætning af 'embedding' (indlejring) og 'model' (model), fra engelsk 'embedding model'. Begrebet opstod med udviklingen af neurale sprogmodeller som Word2Vec (2013) og senere kontekstuelle modeller som BERT.

Afledte ord

3