semantic embedding

En tæt vektorrepræsentation af ord, sætninger eller dokumenter, hvor semantisk lighed afspejles i vektorafstand.

Kort fortalt

Semantisk embedding gør ord til tal, så ord med samme betydning får ensartede talmønstre.

Kategori
begreb
Niveau
øvet
Udtale
/sɪˈmæntɪk ɛmˈbɛdɪŋ/

Betydninger

2
  1. 1

    Generelt koncept: en kontinuerlig vektorrepræsentation, der fanger semantisk information om en sproglig enhed.

    • Moderne NLP-systemer anvender semantiske embeddings til at forstå betydningen af tekst.
  2. 2

    Specifikke teknikker som Word2Vec, GloVe eller kontekstuelle embeddings fra BERT.

    • Word2Vec lærer semantiske embeddings ved at forudsige naboord i en tekstkorpus.Mikolov et al., 2013
    • BERTs kontekstuelle embeddings giver forskellige vektorer for ordet 'bank' alt efter konteksten.Devlin et al., 2019

Hvornår bruges det

Semantiske embeddings bruges i NLP-opgaver som informationssøgning, tekstklassificering, klyngeanalyse og oversættelse. Modeller som Word2Vec, GloVe og BERT genererer embeddings, der muliggør semantisk sammenligning vha. cosinus-lighed.

Kodeeksempel

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embedding = model.encode('Semantic embeddings are useful.')
print(embedding.shape)  # Output: (384,)

Eksempel på brug af sentence-transformers til at generere et semantisk embedding for en sætning.

Oprindelse

Fra engelsk 'semantic' (betydningsmæssig) og 'embedding' (indlejring).

Afledte ord

3

Kilder

3