semantic embedding
En tæt vektorrepræsentation af ord, sætninger eller dokumenter, hvor semantisk lighed afspejles i vektorafstand.
Kort fortalt
Semantisk embedding gør ord til tal, så ord med samme betydning får ensartede talmønstre.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /sɪˈmæntɪk ɛmˈbɛdɪŋ/
Betydninger
2- 1
Generelt koncept: en kontinuerlig vektorrepræsentation, der fanger semantisk information om en sproglig enhed.
- Moderne NLP-systemer anvender semantiske embeddings til at forstå betydningen af tekst.
- 2
Specifikke teknikker som Word2Vec, GloVe eller kontekstuelle embeddings fra BERT.
- Word2Vec lærer semantiske embeddings ved at forudsige naboord i en tekstkorpus. — Mikolov et al., 2013
- BERTs kontekstuelle embeddings giver forskellige vektorer for ordet 'bank' alt efter konteksten. — Devlin et al., 2019
Hvornår bruges det
Semantiske embeddings bruges i NLP-opgaver som informationssøgning, tekstklassificering, klyngeanalyse og oversættelse. Modeller som Word2Vec, GloVe og BERT genererer embeddings, der muliggør semantisk sammenligning vha. cosinus-lighed.
Kodeeksempel
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embedding = model.encode('Semantic embeddings are useful.')
print(embedding.shape) # Output: (384,)Eksempel på brug af sentence-transformers til at generere et semantisk embedding for en sætning.
Oprindelse
Fra engelsk 'semantic' (betydningsmæssig) og 'embedding' (indlejring).