sætningsembedding

En sætningsembedding er en numerisk vektorrepræsentation af en hel sætning, der fanger dens semantiske betydning i et kontinuerligt vektorrum.

Kort fortalt

Sætningsembedding er en måde at omdanne en sætning til en liste af tal, så computere kan sammenligne og forstå betydningen af sætninger.

Kategori: begreb
Niveau: øvet

Betydninger

1
En sætningsembedding er en vektor af reelle tal, der repræsenterer en sætning på en sådan måde, at semantisk ens sætninger har tætte vektorer i et højdimensionelt rum.
- For at finde de mest relevante sætninger i et dokument kan man beregne cosinus-lighed mellem sætningsembeddings.
- Sentence-BERT genererer sætningsembeddings, der kan bruges til semantisk søgning.

Hvornår bruges det

Sætningsembedding bruges i opgaver som semantisk søgning, tekstklassifikation, klyngedannelse og parafrasegenkendelse, hvor man har brug for at måle lighed mellem sætninger. Typisk genereres de af en transformer-baseret model som Sentence-BERT eller Universal Sentence Encoder.

Kodeeksempel

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = ['Dette er en sætning.', 'Dette er en anden sætning.']
embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

Generering af sætningsembeddings med Sentence-Transformers-biblioteket.

Oprindelse

Sammensat af 'sætning' (fra dansk, en sproglig enhed) og 'embedding' (fra engelsk, en repræsentation i et vektorrum), lånt fra computerlingvistik.

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →