GloVe-embeddings
GloVe (Global Vectors for Word Representation) er en teknik til at generere ordindlejringer ved at faktorisere en ord-samtidighedsmatrix baseret på globale tekststatistikker.
Kort fortalt
En metode til at lave ordvektorer, der udnytter hyppigheden af, hvor ofte ord optræder sammen i et stort tekstkorpus.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ɡloʊv ˈɛmbɛdɪŋz/
Betydninger
1- 1
En specifik metode til at lære ordindlejringer ved at optimere en vægtet mindste kvadraters regression på logaritmen af samtidighedstal, udviklet på Stanford University i 2014.
- GloVe-embeddings er trænet på enorme tekstmængder som Wikipedia og Common Crawl.
- I projektet brugte vi fortrænede GloVe-vektorer med 300 dimensioner som input til en LSTM-model.
Hvornår bruges det
GloVe-embeddings bruges ofte som fortrænede ordindlejringer i NLP-opgaver som tekstklassifikation, sentimentanalyse og maskinoversættelse. De kan indlæses via biblioteker som spaCy eller Gensim.
Formel
J = \sum_{i,j=1}^{V} f(X_{ij}) (w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2Kodeeksempel
from gensim.models import KeyedVectors
# Indlæs fortrænede GloVe-vektorer (eks. glove.6B.50d.txt)
model = KeyedVectors.load_word2vec_format('glove.6B.50d.txt', binary=False, no_header=True)
vector = model['konge']
print(vector.shape)Indlæsning af GloVe-embeddings vha. Gensim. Vektorerne er gemt i tekstformat og indlæses som KeyedVectors.
Oprindelse
Akronym for 'Global Vectors', da modellen fanger globale samtidighedsstatistikker på tværs af hele korpus.