forudtrænet ord-embedding

forkortelse for pre-trained word embedding

En forudtrænet ord-embedding er en vektorrepræsentation af ord, der er lært på et stort tekstkorpus og derefter genbrugt i andre NLP-opgaver.

Kort fortalt

Ords betydning gemmes som talrækker, som er trænet på store mængder tekst, så du ikke selv skal træne dem fra bunden.

Kategori: model
Niveau: øvet

Betydninger

1
En vektor (typisk 50–300 dimensioner) for hvert ord i et fast ordforråd, lært ved at optimere et mål som at forudsige naboord (CBOW, Skip-gram) eller global ord-statistik.
- Ved at bruge forudtrænede ord-embeddings fra Word2Vec kan modellen genkende, at 'konge' og 'dronning' er semantisk relaterede. — Eksempel, 2025

Hvornår bruges det

Forudtrænede ord-embeddings bruges ofte som første lag i neurale netværk til tekstklassifikation, sentimentanalyse eller maskinoversættelse. De sparer tid og forbedrer præstationen, især når træningsdata er begrænset.

Kodeeksempel

from gensim.models import KeyedVectors

# Indlæs forudtrænede GloVe-embeddings
model = KeyedVectors.load_word2vec_format('glove.6B.100d.txt', binary=False)
vector = model['konge']  # numpy array af længde 100

Eksempel: Indlæsning af forudtrænede GloVe-embeddings med Gensim.

Oprindelse

Udtrykket stammer fra forskning i distributed representations (distribuerede repræsentationer) af ord, populariseret af Word2Vec (Mikolov et al., 2013) og GloVe (Pennington et al., 2014).

Kilder

Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
GloVe: Global Vectors for Word Representation (Pennington et al., 2014)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i model →Tilfældigt opslag →