clustering

Clusteranalyse er en uovervåget læringsmetode, der grupperer datapunkter i klynger baseret på lighed.

Kort fortalt

Clustering finder naturlige grupperinger i data uden forudgående etiketter.

Kategori
teknik
Niveau
øvet
Udtale
/ˈklʌstərɪŋ/

Betydninger

1
  1. 1

    I maskinlæring, en uovervåget læringsmetode, hvor målet er at inddele data i grupper (klynger) således at punkter i samme klynge er mere ens end punkter i andre klynger.

    • K-means clustering anvendes ofte til segmentering af kunder baseret på købsadfærd.
    • Hierarkisk clustering kan visualiseres med et dendrogram for at vise klyngedannelsen.

Hvornår bruges det

Clustering bruges til kundeopdeling, anomalidetektion, billedsegmentering og dokumentorganisering. Metoden anvendes ofte i indledende dataanalyse for at forstå datastrukturer.

Kodeeksempel

from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)
# Output: [0 0 0 1 1 1]

Simpelt eksempel på K-means clustering med scikit-learn. Data med to klynger identificeres korrekt.

Oprindelse

Fra engelsk 'cluster' (klynge), via latin 'clustrum' (klynge, masse).

Afledte ord

3

Kilder

1
  • An Introduction to Statistical Learning