clustering
Clusteranalyse er en uovervåget læringsmetode, der grupperer datapunkter i klynger baseret på lighed.
Kort fortalt
Clustering finder naturlige grupperinger i data uden forudgående etiketter.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈklʌstərɪŋ/
Betydninger
1- 1
I maskinlæring, en uovervåget læringsmetode, hvor målet er at inddele data i grupper (klynger) således at punkter i samme klynge er mere ens end punkter i andre klynger.
- K-means clustering anvendes ofte til segmentering af kunder baseret på købsadfærd.
- Hierarkisk clustering kan visualiseres med et dendrogram for at vise klyngedannelsen.
Hvornår bruges det
Clustering bruges til kundeopdeling, anomalidetektion, billedsegmentering og dokumentorganisering. Metoden anvendes ofte i indledende dataanalyse for at forstå datastrukturer.
Kodeeksempel
from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)
# Output: [0 0 0 1 1 1]Simpelt eksempel på K-means clustering med scikit-learn. Data med to klynger identificeres korrekt.
Oprindelse
Fra engelsk 'cluster' (klynge), via latin 'clustrum' (klynge, masse).
Afledte ord
3Kilder
1- An Introduction to Statistical Learning