仅基本一致的数据的分类算法

Posted 2023-03-12

技术标签:

【中文标题】仅基本一致的数据的分类算法【英文标题】：Classification algorithm for data that is only mostly consistent 【发布时间】：2018-07-07 14:02:39 【问题描述】：

我有一个由大约 30 个特征组成的数据集，除了一个相似和一个类别（生成集群的预处理步骤的结果）之外，所有这些特征都不同

每个集群通常是一组具有相似数值的相似特征，但也经常存在一些异常值 - 见下文。

例如： - 标记为 A、B、C 等的特征

注意：我已将数据中的NAN转换为数字0。

A   B   C   D   E   F   G   H   …>  Cluster 
78  0   0   67  48  35  0   0       1   
0   67  0   66  45  35  0   0       1   
0   0   0   68  44  38  0   0       1   
0   0   0   66  43  36  0   0       1   
78  50  67  0   0   0   0   0       2   
75  55  60  0   0   0   0   0       2   
77  54  61  0   0   78  0   0       2

问题：我需要能够输入新的特征集（单行）并预测簇数。鉴于数据中存在这些异常值并且仅大部分相似，对于该任务的最佳分类算法是什么？

【问题讨论】：

似乎与此站点无关，但请查看 k-means 聚类。一个简单的事情是计算新行和每个集群（可能是点的质心）之间的欧几里得距离，并将其分类到最近的集群。 Thx @pault ，问题：1. 似乎有许多不同的方法和工具可以计算欧几里得，您认为哪一种最适合约 100,000 行点的高维数据？ 2. 如何为每个集群创建一个质心？这两个问题都可以通过谷歌搜索来回答。对于 1，请尝试 this post。对于 2，从所有维度的简单平均值开始。您可能还想研究（谷歌）聚类算法和推荐系统。谢谢@pault，感谢您的帮助，如果我使用错误的论坛来解决更一般的问题，我们深表歉意。 【参考方案1】：

感谢@pault 获取指向： “计算新行与每个簇（可能是点的质心）之间的欧几里得距离，并将其分类到最近的簇。”

【讨论】：

以上是关于仅基本一致的数据的分类算法的主要内容，如果未能解决你的问题，请参考以下文章