GloVe
forkortelse for Global Vectors for Word Representation
GloVe er en uovervåget læringsalgoritme, der producerer tætte ordvektorer ved at faktorisere en ord-med-forekomstmatrix.
Kort fortalt
GloVe skaber ordvektorer, der fanger betydning og relationer mellem ord ved at analysere, hvor ofte ord optræder sammen i tekster.
- Kategori
- model
- Niveau
- øvet
- Udtale
- /ɡloʊv/
Betydninger
2- 1
Den matematiske algoritme, der træner ordvektorer ved at faktorisere en log-frekvens co-occurrence matrix.
- GloVe-algoritmen minimerer en vægtet mindste kvadraters fejl mellem prikproduktet af ordvektorer og log-frekvensen af co-occurrence. — Pennington et al., 2014
- 2
De resulterende prætrænede vektorer (embeddings) produceret af GloVe-algoritmen, ofte tilgængelige i forskellige dimensioner (f.eks. 50, 100, 200, 300).
- GloVe 300-dimensionelle embeddings bruges ofte som initialisering i deep learning-modeller for naturlig sprogforståelse. — Forskning, 2015
Hvornår bruges det
GloVe anvendes ofte til at generere prætrænede ordindlejringer til NLP-opgaver som tekstklassifikation, maskinoversættelse og informationssøgning. Det er et alternativ til Word2Vec og giver god præstation på semantiske analogiopgaver.
Formel
J = sum_{i,j} f(X_{ij}) (w_i ⋅ w̃_j + b_i + b̃_j - log X_{ij})²Kodeeksempel
# Load pre-trained GloVe vectors (requires gensim and glove file)
from gensim.models import KeyedVectors
# Load GloVe vectors from text file (e.g., glove.6B.300d.txt)
glove = KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=False)
# Find similar words
print(glove.most_similar('king', topn=5))Eksempel på indlæsning af prætrænede GloVe-vektorer med gensim og findning af de mest lignende ord til 'king'.
Oprindelse
Navnet 'GloVe' er en forkortelse for 'Global Vectors', der henviser til, at metoden bruger global ordstatistik (co-occurrence) til at lære vektorer.