仅基本一致的数据的分类算法

Posted

技术标签:

【中文标题】仅基本一致的数据的分类算法【英文标题】:Classification algorithm for data that is only mostly consistent 【发布时间】:2018-07-07 14:02:39 【问题描述】:

我有一个由大约 30 个特征组成的数据集,除了一个相似和一个类别(生成集群的预处理步骤的结果)之外,所有这些特征都不同

每个集群通常是一组具有相似数值的相似特征,但也经常存在一些异常值 - 见下文。

例如: - 标记为 A、B、C 等的特征

注意:我已将数据中的NAN转换为数字0。

A   B   C   D   E   F   G   H   …>  Cluster 
78  0   0   67  48  35  0   0       1   
0   67  0   66  45  35  0   0       1   
0   0   0   68  44  38  0   0       1   
0   0   0   66  43  36  0   0       1   
78  50  67  0   0   0   0   0       2   
75  55  60  0   0   0   0   0       2   
77  54  61  0   0   78  0   0       2   

问题:我需要能够输入新的特征集(单行)并预测簇数。鉴于数据中存在这些异常值并且仅大部分相似,对于该任务的最佳分类算法是什么?

【问题讨论】:

似乎与此站点无关,但请查看 k-means 聚类。一个简单的事情是计算新行和每个集群(可能是点的质心)之间的欧几里得距离,并将其分类到最近的集群。 Thx @pault ,问题:1. 似乎有许多不同的方法和工具可以计算欧几里得,您认为哪一种最适合约 100,000 行点的高维数据? 2. 如何为每个集群创建一个质心? 这两个问题都可以通过谷歌搜索来回答。对于 1,请尝试 this post。对于 2,从所有维度的简单平均值开始。您可能还想研究(谷歌)聚类算法和推荐系统。 谢谢@pault,感谢您的帮助,如果我使用错误的论坛来解决更一般的问题,我们深表歉意。 【参考方案1】:

感谢@pault 获取指向: “计算新行与每个簇(可能是点的质心)之间的欧几里得距离,并将其分类到最近的簇。”

【讨论】:

以上是关于仅基本一致的数据的分类算法的主要内容,如果未能解决你的问题,请参考以下文章

共识协议共识算法分类

共识协议共识算法分类

数据回归分类预测的基本算法及python实现

是基于局部和全局一致性算法对双月数据进行分类

半监督分类基于K-means和Label+Propagation的半监督网页分类

基于K-means和Label+Propagation的半监督网页分类