DBSCAN
forkortelse for Density-Based Spatial Clustering of Applications with Noise
DBSCAN er en tæthedsbaseret klyngealgoritme, der grupperer datapunkter baseret på deres nærhed og antallet af naboer, og som kan identificere støj.
Kort fortalt
DBSCAN finder klynger af punkter, der ligger tæt sammen, og markerer isolerede punkter som støj.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /diː biː skæn/
Betydninger
1- 1
En tæthedsbaseret klyngealgoritme, der definerer klynger som sammenhængende områder med høj tæthed adskilt af områder med lav tæthed, og som kan finde klynger af vilkårlig form og identificere støj.
- DBSCAN blev anvendt til at gruppere geolokationsdata og fandt tydelige klynger af besøgsmønstre.
- Fordi DBSCAN ikke kræver et foruddefineret antal klynger, er det velegnet til eksplorativ dataanalyse.
Hvornår bruges det
DBSCAN bruges til clustering i store datasæt, især når klynger har uregelmæssige former og der er støj. Det kræver to parametre: epsilon (afstand) og minPts (minimum antal punkter).
Kodeeksempel
from sklearn.cluster import DBSCAN
import numpy as np
X = np.array([[1,2],[2,2],[2,3],[8,7],[8,8],[25,80]])
clustering = DBSCAN(eps=3, min_samples=2).fit(X)
print(clustering.labels_) # Output: [0 0 0 1 1 -1]Eksempel på brug af DBSCAN fra scikit-learn med to parametre eps og min_samples. Punktet [25,80] identificeres som støj (-1).
Oprindelse
Forkortelse for 'Density-Based Spatial Clustering of Applications with Noise', introduceret af Martin Ester, Hans-Peter Kriegel, Jörg Sander og Xiaowei Xu i 1996.
Kilder
1- A density-based algorithm for discovering clusters in large spatial databases with noise (1996)