在 scikit-learn 中获取每个亲和传播集群的***术语

Posted

技术标签:

【中文标题】在 scikit-learn 中获取每个亲和传播集群的***术语【英文标题】:Getting top terms per affinity propagation cluster in scikit-learn 【发布时间】:2019-06-18 04:51:46 【问题描述】:

我正在为一堆新闻文本尝试不同的聚类方法,并且正在努力寻找任何方法来为 sklearns 亲和力传播找到每个聚类的热门术语,并且我不确定这是否可能。

对于 k-means 聚类,我使用与此处相同的方法:https://scikit-learn.org/0.19/auto_examples/text/document_clustering.html 从逻辑上讲,我希望使用与 k-means 相同的 X 进行亲和力传播。

有人知道如何通过亲和力传播产生类似的结果吗?

【问题讨论】:

【参考方案1】:

可以计算平均值,并以与 k-means 相同的方式对其进行分析。

为了获得更好的结果,如果 sklearn API 公开了责任因素,您可以按责任因素衡量每个文档。

【讨论】:

以上是关于在 scikit-learn 中获取每个亲和传播集群的***术语的主要内容,如果未能解决你的问题,请参考以下文章

地址的亲和传播聚类

机器学习---聚类算法

[机器学习与scikit-learn-5]:数据集获取的主要方式-1-自带数据集

关联传播首选项初始化

scikit-learn内置数据集

[机器学习与scikit-learn-6]:数据集获取的主要方式-2-计算机生成数据集