forudtrænet ord-embedding
forkortelse for pre-trained word embedding
En forudtrænet ord-embedding er en vektorrepræsentation af ord, der er lært på et stort tekstkorpus og derefter genbrugt i andre NLP-opgaver.
Kort fortalt
Ords betydning gemmes som talrækker, som er trænet på store mængder tekst, så du ikke selv skal træne dem fra bunden.
- Kategori
- model
- Niveau
- øvet
Betydninger
1- 1
En vektor (typisk 50–300 dimensioner) for hvert ord i et fast ordforråd, lært ved at optimere et mål som at forudsige naboord (CBOW, Skip-gram) eller global ord-statistik.
- Ved at bruge forudtrænede ord-embeddings fra Word2Vec kan modellen genkende, at 'konge' og 'dronning' er semantisk relaterede. — Eksempel, 2025
Hvornår bruges det
Forudtrænede ord-embeddings bruges ofte som første lag i neurale netværk til tekstklassifikation, sentimentanalyse eller maskinoversættelse. De sparer tid og forbedrer præstationen, især når træningsdata er begrænset.
Kodeeksempel
from gensim.models import KeyedVectors
# Indlæs forudtrænede GloVe-embeddings
model = KeyedVectors.load_word2vec_format('glove.6B.100d.txt', binary=False)
vector = model['konge'] # numpy array af længde 100Eksempel: Indlæsning af forudtrænede GloVe-embeddings med Gensim.
Oprindelse
Udtrykket stammer fra forskning i distributed representations (distribuerede repræsentationer) af ord, populariseret af Word2Vec (Mikolov et al., 2013) og GloVe (Pennington et al., 2014).
Kilder
2- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
- GloVe: Global Vectors for Word Representation (Pennington et al., 2014)