将 kmeans 与 mahout 一起使用时忽略列

Posted 2023-03-12

技术标签:

【中文标题】将 kmeans 与 mahout 一起使用时忽略列【英文标题】：Ignore a column when using kmeans with mahout 【发布时间】：2016-06-23 16:13:25 【问题描述】：

您好，我有一组这种形式的数据：

12347,23.75580119032886
12348,57.97548386358446
12349,24.076027347616954
12350,19.670588100657742
12352,16.267473592256245

其中第一列是用户的 ID，第二列是他购买的价值。我正在使用带有 mahout 的 KMeans 算法将数据集划分为 3 个集群。我的问题是正在使用 Id 列，因此输出错误。有什么方法可以忽略第一列并仅在第二列上进行聚类？谢谢。

【问题讨论】：

【参考方案1】：

使用 map-reduce 作业适当地映射数据。

【讨论】：

感谢您的回答，我添加了一个函数来映射聚类后的数据以将聚类值与 ID 匹配。

以上是关于将 kmeans 与 mahout 一起使用时忽略列的主要内容，如果未能解决你的问题，请参考以下文章