sætningsembedding
En sætningsembedding er en numerisk vektorrepræsentation af en hel sætning, der fanger dens semantiske betydning i et kontinuerligt vektorrum.
Kort fortalt
Sætningsembedding er en måde at omdanne en sætning til en liste af tal, så computere kan sammenligne og forstå betydningen af sætninger.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En sætningsembedding er en vektor af reelle tal, der repræsenterer en sætning på en sådan måde, at semantisk ens sætninger har tætte vektorer i et højdimensionelt rum.
- For at finde de mest relevante sætninger i et dokument kan man beregne cosinus-lighed mellem sætningsembeddings.
- Sentence-BERT genererer sætningsembeddings, der kan bruges til semantisk søgning.
Hvornår bruges det
Sætningsembedding bruges i opgaver som semantisk søgning, tekstklassifikation, klyngedannelse og parafrasegenkendelse, hvor man har brug for at måle lighed mellem sætninger. Typisk genereres de af en transformer-baseret model som Sentence-BERT eller Universal Sentence Encoder.
Kodeeksempel
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = ['Dette er en sætning.', 'Dette er en anden sætning.']
embeddings = model.encode(sentences)
print(embeddings.shape) # (2, 384)Generering af sætningsembeddings med Sentence-Transformers-biblioteket.
Oprindelse
Sammensat af 'sætning' (fra dansk, en sproglig enhed) og 'embedding' (fra engelsk, en repræsentation i et vektorrum), lånt fra computerlingvistik.