vektoriseringsmetode

En metode til at omdanne ikke-numeriske data, såsom tekst eller billeder, til numeriske vektorer, som maskinlæringsmodeller kan behandle.

Kort fortalt

En teknik, der oversætter ord, sætninger eller billeder til talrækker, så computere kan forstå og sammenligne dem.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    En metode til at konvertere rådata, fx tekst, billeder eller lyd, til numeriske vektorer, der kan bruges som input til maskinlæringsmodeller.

    • Vektoriseringsmetoder som bag-of-words reducerer tekst til en tælling af ord.
    • Convolutional neural networks indeholder en implicit vektoriseringsmetode for billeder.
  2. 2

    Inden for naturlig sprogbehandling (NLP) henviser vektoriseringsmetode specifikt til teknikker, der omdanner ord, sætninger eller dokumenter til tætte (dense) eller sparse vektorer, kaldet embeddings.

    • Transformer-modeller som BERT anvender kontekstafhængige vektoriseringsmetoder, der genererer forskellige vektorer for ordet 'bænk' alt efter kontekst.
    • Statistiske vektoriseringsmetoder som TF-IDF er stadig populære til søgning og informationsgenfinding.

Hvornår bruges det

Vektoriseringsmetoder anvendes i NLP til at repræsentere tekst som vektorer, f.eks. til søgning, clustering eller klassifikation. Populære metoder inkluderer TF-IDF, Word2Vec og transformer-baserede embeddings som BERT.

Kodeeksempel

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["kat sidder på måtten", "hunden sover på gulvet"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())

Opretter en bag-of-words vektoriseringsmetode og omdanner to sætninger til sparse vektorer.

Oprindelse

Sammensat af 'vektor' (en talfølge) og '-isering' (proces) og 'metode', altså en metode til at skabe vektorer.

Afledte ord

3