dbscan - 设置最大集群跨度限制

Posted

技术标签:

【中文标题】dbscan - 设置最大集群跨度限制【英文标题】:dbscan - setting limit on maximum cluster span 【发布时间】:2013-09-04 00:34:18 【问题描述】:

根据我对 DBSCAN 的理解,您可以指定一个 epsilon,例如 100 米,并且 - 因为 DBSCAN 考虑了密度可达性 direct density-reachability 在寻找集群时——最终得到一个集群,其中任意两点之间的最大距离大于 100 米。在更极端的可能性中,您似乎可以将 epsilon 设置为 100 米并最终得到 1 公里的集群: see [2][6] in this array of images from scikit learn 举例说明何时可能发生这种情况。 (我非常愿意被告知我是一个彻头彻尾的白痴,如果这就是这里发生的事情,我会误解 DBSCAN。)

是否有像 DBSCAN 这样基于密度的算法,但考虑到集群中任意两点之间的最大距离的某种阈值?

【问题讨论】:

【参考方案1】:

DBSCAN 确实不会对集群施加总大小限制。

epsilon 值最好解释为分隔两个簇的间隙大小(最多可能包含 minpts-1 个对象)。

我相信,您实际上甚至不是在寻找聚类:聚类是发现数据结构的任务。结构可以更简单(如k-means)或复杂(如层次聚类和k-means发现的任意形状的簇)。

您可能正在寻找 vector quantization - 将数据集减少为较小的代表集 - 或 set cover - 寻找给定集合的最佳覆盖 - 相反。

但是,我也觉得你并不确定你需要什么以及为什么。

DBSCAN 的一个优点是它以密度连通分量的形式具有结构的数学定义。这是一个强大且(除了一些罕见的边界情况)定义明确的数学概念,DBSCAN 算法是发现这种结构的最佳有效算法。

但是,

直接 密度可达性并没有定义有用的(分区)结构。它只是不会将数据分区到不相交的分区。

如果您不需要这种强大的结构(即您没有像“结构发现”那样进行聚类,但您只想像矢量量化那样压缩数据),您可以提供“树冠预聚类”试一试。它可以看作是为聚类而设计的预处理步骤。本质上,它就像 DBSCAN,只是它使用两个 epsilon 值,并且不保证结构以任何方式都是最优的,而是高度依赖于数据的顺序。如果您随后对其进行适当的预处理,它仍然很有用。除非您处于分布式环境中,否则树冠预集群至少与完整的 DBSCAN 运行一样昂贵。由于要求比较宽松(特别是“簇”可能会重叠,对象应该属于多个“簇”),比较容易并行化。

哦,您可能还只是在寻找完整链接层次聚类。如果您在所需高度切割树状图,则生成的簇都应在任意两个对象之间具有所需的最大距离。唯一的问题是层次聚类通常是O(n^3),即它不能扩展到大型数据集。 DBSCAN 在O(n log n) 中运行良好(支持索引)。

【讨论】:

以上是关于dbscan - 设置最大集群跨度限制的主要内容,如果未能解决你的问题,请参考以下文章

集群分配有时在两个 DBSCAN 实现中不同

在 DBSCAN 中找到每个集群中出现最多的位置

基于 DBSCAN 的集群字符串

使用python分离DBSCAN中每个集群的坐标(3D坐标)

在 scikit DBSCAN 中查找每个集群内的元素?

Python DBSCAN - 如何根据向量的平均值绘制集群?