forudtrænet ord-embedding

forkortelse for pre-trained word embedding

En forudtrænet ord-embedding er en vektorrepræsentation af ord, der er lært på et stort tekstkorpus og derefter genbrugt i andre NLP-opgaver.

Kort fortalt

Ords betydning gemmes som talrækker, som er trænet på store mængder tekst, så du ikke selv skal træne dem fra bunden.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En vektor (typisk 50–300 dimensioner) for hvert ord i et fast ordforråd, lært ved at optimere et mål som at forudsige naboord (CBOW, Skip-gram) eller global ord-statistik.

    • Ved at bruge forudtrænede ord-embeddings fra Word2Vec kan modellen genkende, at 'konge' og 'dronning' er semantisk relaterede.Eksempel, 2025

Hvornår bruges det

Forudtrænede ord-embeddings bruges ofte som første lag i neurale netværk til tekstklassifikation, sentimentanalyse eller maskinoversættelse. De sparer tid og forbedrer præstationen, især når træningsdata er begrænset.

Kodeeksempel

from gensim.models import KeyedVectors

# Indlæs forudtrænede GloVe-embeddings
model = KeyedVectors.load_word2vec_format('glove.6B.100d.txt', binary=False)
vector = model['konge']  # numpy array af længde 100

Eksempel: Indlæsning af forudtrænede GloVe-embeddings med Gensim.

Oprindelse

Udtrykket stammer fra forskning i distributed representations (distribuerede repræsentationer) af ord, populariseret af Word2Vec (Mikolov et al., 2013) og GloVe (Pennington et al., 2014).

Kilder

2
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
  • GloVe: Global Vectors for Word Representation (Pennington et al., 2014)