具有自定义距离的层次聚类

Posted

技术标签:

【中文标题】具有自定义距离的层次聚类【英文标题】:Hierarchical clustering with custom distance 【发布时间】:2012-07-09 18:45:03 【问题描述】:

我需要实现基于自定义距离的层次聚类算法。通过在数据库中查找与正在比较的对象的两个 id 关联的值来计算距离。 有没有一种简单的方法可以在 Java 中做到这一点?我查看了 Weka 及其自定义距离函数,但找不到定义实例的方法,因此当我在自定义距离函数中时,我可以获得两个原始对象的 ID。

任何帮助将不胜感激 非常感谢提前 罗塞拉

【问题讨论】:

elki.dbs.ifi.lmu.de/wiki/Tutorial/DistanceFunctions 他们有 SLINK,它是 O(n^2) 运行时的单链接层次聚类(而不是 O(n^3),这是实现它的简单方法)。您可能需要加载一个包含您的 ID 的虚假数据集。 【参考方案1】:

您可以查看 Apache Mahout。 这是一个链接Mahout Hierarchical clustering

这个工具是用 Java 和它的开源语言编写的。

【讨论】:

...而且它在设计上不能与其他数据库很好地配合。

以上是关于具有自定义距离的层次聚类的主要内容,如果未能解决你的问题,请参考以下文章

层次聚类中使用不同链接的不同距离矩阵

聚类:层次聚类基于划分的聚类(k-means)基于密度的聚类基于模型的聚类

机器学习——层次聚类算法

带 plotly 的树状图 - 如何为层次聚类设置自定义链接方法

凝聚型层次聚类算法对数据集进行分类时,如何对合并的新簇计算簇间距离?

聚类-层次聚类(谱系聚类)算法