仅基本一致的数据的分类算法
Posted
技术标签:
【中文标题】仅基本一致的数据的分类算法【英文标题】:Classification algorithm for data that is only mostly consistent 【发布时间】:2018-07-07 14:02:39 【问题描述】:我有一个由大约 30 个特征组成的数据集,除了一个相似和一个类别(生成集群的预处理步骤的结果)之外,所有这些特征都不同
每个集群通常是一组具有相似数值的相似特征,但也经常存在一些异常值 - 见下文。
例如: - 标记为 A、B、C 等的特征
注意:我已将数据中的NAN转换为数字0。
A B C D E F G H …> Cluster
78 0 0 67 48 35 0 0 1
0 67 0 66 45 35 0 0 1
0 0 0 68 44 38 0 0 1
0 0 0 66 43 36 0 0 1
78 50 67 0 0 0 0 0 2
75 55 60 0 0 0 0 0 2
77 54 61 0 0 78 0 0 2
问题:我需要能够输入新的特征集(单行)并预测簇数。鉴于数据中存在这些异常值并且仅大部分相似,对于该任务的最佳分类算法是什么?
【问题讨论】:
似乎与此站点无关,但请查看 k-means 聚类。一个简单的事情是计算新行和每个集群(可能是点的质心)之间的欧几里得距离,并将其分类到最近的集群。 Thx @pault ,问题:1. 似乎有许多不同的方法和工具可以计算欧几里得,您认为哪一种最适合约 100,000 行点的高维数据? 2. 如何为每个集群创建一个质心? 这两个问题都可以通过谷歌搜索来回答。对于 1,请尝试 this post。对于 2,从所有维度的简单平均值开始。您可能还想研究(谷歌)聚类算法和推荐系统。 谢谢@pault,感谢您的帮助,如果我使用错误的论坛来解决更一般的问题,我们深表歉意。 【参考方案1】:感谢@pault 获取指向: “计算新行与每个簇(可能是点的质心)之间的欧几里得距离,并将其分类到最近的簇。”
【讨论】:
以上是关于仅基本一致的数据的分类算法的主要内容,如果未能解决你的问题,请参考以下文章