FengHZ's Blog Summer is for falling in love.

DBSCAN 学习笔记

2018-04-16

报告题目:Learn DBSCAN

算法

整个算法的目标就是去识别稠密区域。如何定义稠密呢?可以认为是对一个给定点周围的object的数目。这就导致了对于DBSCAN有2个重要参数,一个是epsilon,另外一个是minimum points 。

eps定义了x附近的一个小圆盘,被叫做x的epsilon领域。minpts表示在这个圆盘的eps半径内的最小点

定义边缘点:

x是一个边界点,如果它的邻居的数目小于最小点的数值,但是它又在某个点z的$\epsilon -neighborhood$内。如果一个点既不是核心点,又不是边界点,那么它就被叫做是噪声点或者是外围点

因此我们可以直接定义几个概念:

1.直接密度可达:

如果点A可以被点B 直接密度可达(direct density reachable),当且仅当:

​ 1.A在B的一个$\epsilon-neighborhood$内

​ 2.B是一个核心点

2.密度可达

A是从B密度可达的,如果有一系列核心点可以从B连到A,也就是说中间有C,D,E这些核心点,A被C直接密度可达,C被D直接密度可达,D被E直接密度可达,B被E直接密度可达

3.密度连接

A与B是密度连接的,如果有一个核心点C,A与B都从C密度可达

因此,密度聚类就是被定义为一群具有密度连接性质的点。

一般MinPts数据集比较大也设的比较大,一般至少设置为3



Comments

Content