Scikit 的 DBSCAN 聚类算法中的噪声样本是啥?
Posted
技术标签:
【中文标题】Scikit 的 DBSCAN 聚类算法中的噪声样本是啥?【英文标题】:What are noisy samples in Scikit's DBSCAN clustering algorithm?Scikit 的 DBSCAN 聚类算法中的噪声样本是什么? 【发布时间】:2017-12-31 23:06:45 【问题描述】:如果我在相似矩阵上应用 Scikit 的 DBSCAN (http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我会得到一系列标签。其中一些标签是-1。文档称它们为嘈杂样本。
这些是什么?它们都属于一个集群,还是因为它们很嘈杂而各自属于自己的集群?
谢谢
【问题讨论】:
另请阅读 DBSCAN 论文! 这里是链接以防其他人需要它:aaai.org/Papers/KDD/1996/KDD96-037.pdf 【参考方案1】:这些并不完全是集群的一部分。它们只是不属于任何集群的点,在某种程度上可以“忽略”。
请记住,DBSCAN 代表“具有噪声的基于密度的应用程序空间聚类”。 DBSCAN 检查以确保一个点在指定范围内有足够的邻居来将这些点分类到集群中。
但是对于不符合落入任何主要集群的标准的点会发生什么?如果一个点在指定半径内没有足够的邻居被视为集群的一部分怎么办?这些点被赋予了-1
的集群标签并被视为噪声。
那又怎样?
好吧,如果您正在分析数据点并且您只对一般集群感兴趣,那么您可以降低数据的大小并消除噪音。或者,如果您使用聚类分析对数据进行分类,在某些情况下可以将噪声作为异常值丢弃。
在异常检测中,不属于任何类别的点也很重要,因为它们可能代表问题或罕见事件。
【讨论】:
以上是关于Scikit 的 DBSCAN 聚类算法中的噪声样本是啥?的主要内容,如果未能解决你的问题,请参考以下文章
rapidminer 和 scikit-learn 中的 DBSCAN 算法