sætningsembedding

En sætningsembedding er en numerisk vektorrepræsentation af en hel sætning, der fanger dens semantiske betydning i et kontinuerligt vektorrum.

Kort fortalt

Sætningsembedding er en måde at omdanne en sætning til en liste af tal, så computere kan sammenligne og forstå betydningen af sætninger.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En sætningsembedding er en vektor af reelle tal, der repræsenterer en sætning på en sådan måde, at semantisk ens sætninger har tætte vektorer i et højdimensionelt rum.

    • For at finde de mest relevante sætninger i et dokument kan man beregne cosinus-lighed mellem sætningsembeddings.
    • Sentence-BERT genererer sætningsembeddings, der kan bruges til semantisk søgning.

Hvornår bruges det

Sætningsembedding bruges i opgaver som semantisk søgning, tekstklassifikation, klyngedannelse og parafrasegenkendelse, hvor man har brug for at måle lighed mellem sætninger. Typisk genereres de af en transformer-baseret model som Sentence-BERT eller Universal Sentence Encoder.

Kodeeksempel

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = ['Dette er en sætning.', 'Dette er en anden sætning.']
embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

Generering af sætningsembeddings med Sentence-Transformers-biblioteket.

Oprindelse

Sammensat af 'sætning' (fra dansk, en sproglig enhed) og 'embedding' (fra engelsk, en repræsentation i et vektorrum), lånt fra computerlingvistik.

Kilder

2