clustering

Clusteranalyse er en uovervåget læringsmetode, der grupperer datapunkter i klynger baseret på lighed.

Kort fortalt

Clustering finder naturlige grupperinger i data uden forudgående etiketter.

Kategori: teknik
Niveau: øvet
Udtale: /ˈklʌstərɪŋ/

Betydninger

1
I maskinlæring, en uovervåget læringsmetode, hvor målet er at inddele data i grupper (klynger) således at punkter i samme klynge er mere ens end punkter i andre klynger.
- K-means clustering anvendes ofte til segmentering af kunder baseret på købsadfærd.
- Hierarkisk clustering kan visualiseres med et dendrogram for at vise klyngedannelsen.

Hvornår bruges det

Clustering bruges til kundeopdeling, anomalidetektion, billedsegmentering og dokumentorganisering. Metoden anvendes ofte i indledende dataanalyse for at forstå datastrukturer.

Kodeeksempel

from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)
# Output: [0 0 0 1 1 1]

Simpelt eksempel på K-means clustering med scikit-learn. Data med to klynger identificeres korrekt.

Oprindelse

Fra engelsk 'cluster' (klynge), via latin 'clustrum' (klynge, masse).

Afledte ord

k-means clustering hierarkisk clustering DBSCAN

Kilder

An Introduction to Statistical Learning

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →