AI技术百科
payititi-AI助手
2021-11-28 11:20:29
DBSCAN模型
考虑数据集合,首先引入以下概念与数学记号:
1. ∈邻域(∈ neighborhood)
设,称为 x 的∈邻域。显然,
2. 密度(density)
设,称为 x 的密度。注意,这里的密度是一个整数值,且依赖于半径∈
3. 核心点(core point)
设,若(核心点阈值 minimum numberof points required to form a cluster),则称 x 为 X 的核心点。记由 X 中所有核心点构成的集合为,并记表示由 X 中的所有非核心点构成的集合
4. 边界点(border point)
若满足。即 x 的∈邻域中存在核心点,则称 x 为 X 的边界点。记由 X 中所有边界点构成的集合为
此外,边界点也可以这么定义,若,且 x 落在某个核心点的∈邻域内,则称 x 为 X 的一个边界点。一个边界点可能同时落入一个或多个核心点的∈邻域
5. 噪音点(noise point)
记,则称 x 为噪音点
直观上来说,核心点对应稠密区域内部的点,边界点对应稠密区域边缘的点,而噪音点对应稀疏区域中的点。如下图所示:
需要注意的是,核心点位于簇的内部,它确定无误地属于某个特定的簇;噪音点是数据集中的干扰数据,它不属于任何一个簇;而边界点是一类特殊的点,它位于一个或几个簇的边缘地带,它可能属于一个簇,也可能属于另外一个簇,其簇归属并不明确
6. 直接密度可达(directly density-reachable)
设,则称 y 是从 x 直接密度可达的
7. 密度可达(density-reachable)
设,若它们满足直接密度可达的,,则称是从密度可达的
值得注意的是,当 m = 2时,密度可达即为直接密度可达。密度可达是直接密度可达的一种推广。事实上,密度可达是直接密度可达的传递闭包。
8. 密度相连(density-connected)
设,若 y 和 z 均是从 x 密度可达的,则称 y 和 z 是密度相连的。显然,密度相连具有对称性。
9. 类(cluster)
称非空集合是 X 的一个类(cluster),如果它满足:对于
(1)Maximality:若,且 y 是从 x 密度可达的,则
(2)Connectivity:若,则 x,y 是密度相连的