DBSCAN

forkortelse for Density-Based Spatial Clustering of Applications with Noise

DBSCAN er en tæthedsbaseret klyngealgoritme, der grupperer datapunkter baseret på deres nærhed og antallet af naboer, og som kan identificere støj.

Kort fortalt

DBSCAN finder klynger af punkter, der ligger tæt sammen, og markerer isolerede punkter som støj.

Kategori
teknik
Niveau
øvet
Udtale
/diː biː skæn/

Betydninger

1
  1. 1

    En tæthedsbaseret klyngealgoritme, der definerer klynger som sammenhængende områder med høj tæthed adskilt af områder med lav tæthed, og som kan finde klynger af vilkårlig form og identificere støj.

    • DBSCAN blev anvendt til at gruppere geolokationsdata og fandt tydelige klynger af besøgsmønstre.
    • Fordi DBSCAN ikke kræver et foruddefineret antal klynger, er det velegnet til eksplorativ dataanalyse.

Hvornår bruges det

DBSCAN bruges til clustering i store datasæt, især når klynger har uregelmæssige former og der er støj. Det kræver to parametre: epsilon (afstand) og minPts (minimum antal punkter).

Kodeeksempel

from sklearn.cluster import DBSCAN
import numpy as np
X = np.array([[1,2],[2,2],[2,3],[8,7],[8,8],[25,80]])
clustering = DBSCAN(eps=3, min_samples=2).fit(X)
print(clustering.labels_)  # Output: [0 0 0 1 1 -1]

Eksempel på brug af DBSCAN fra scikit-learn med to parametre eps og min_samples. Punktet [25,80] identificeres som støj (-1).

Oprindelse

Forkortelse for 'Density-Based Spatial Clustering of Applications with Noise', introduceret af Martin Ester, Hans-Peter Kriegel, Jörg Sander og Xiaowei Xu i 1996.

Kilder

1
  • A density-based algorithm for discovering clusters in large spatial databases with noise (1996)