Density Based Spatial Clustering of Applications with Noise

Jun 16, 2016


1. Algorithm

在DBSCAN中,数据点分为3类

  • core points
  • reachable points
  • outliers

对于数据点,如果与其距离小于的数据点数量超过minPts,则称core points,而称为directly reachable

如果存在一个序列,其中都是core point,且都是directly reachable,则称reachable

非任何core pointreachable point则称为outliers

DBSCAN如此定义一个簇

  • 其中的所有core points都是互相的reachable
  • 任意普通点都是簇中一个core pointdirectly reachable

2. 一个朴素的并行求解方法

  • 两两计算距离,小于则视为一条边连接,构建无向图的邻接表
  • 根据邻接表标记core point
  • 将每个core point与其邻接点构建集合
  • 集合两两尝试合并(若有相同的core point则合并)
  • 当任意两个集合都没有相同的core point结束,此时剩余的每个集合都是一个簇