如何使用任何分类器对我的数据进行分类,每个数据点由一组浮点值组成?

Posted

技术标签:

【中文标题】如何使用任何分类器对我的数据进行分类,每个数据点由一组浮点值组成?【英文标题】:How can I use any classifier to classify my data with each data point consisting of a set of floating values? 【发布时间】:2019-04-01 13:01:21 【问题描述】:

我有这种格式的数据-

[0.266465 0.9203907 1.007363 ... 0.0.09623989 0.39632136]

是第一行第一列的值。

是第一行第二列的值:

[0.9042176 1.135085 1.2988662 ... 0.0.13614458 0.28000486]

我有 2200 个这样的行,我想训练一个分类器来识别这两组值是否相似?

P.S.- 这些是提取的特征向量值。

【问题讨论】:

【参考方案1】:

如果您假设两个提取的特征向量之间的关系是线性的,您可以尝试使用 Pearson 相关

import numpy as np
from scipy.stats import pearsonr

list1 = np.random.random(100)
list2 = np.random.random(100)

pearsonr(list1, list2)

一个示例输出是:

(0.0746901299996632, 0.4601843257734832)

第一个值表示相关性 (7%),第二个值表示其显着性(> 0,05,您接受零假设,即相关性在显着性水平 alfa = 5% 时不显着)。如果向量是相关的,它们在某种程度上是相似的。更多关于here的方法。

另外,我遇​​到了Normalized Cross-Correlation,它用于识别图片之间的相似性(不是专家,所以请查看this)。

【讨论】:

谢谢,这个想法很有帮助,我发现另一种方法是减去这两个向量并存储结果,然后在 svm 上训练结果。

以上是关于如何使用任何分类器对我的数据进行分类,每个数据点由一组浮点值组成?的主要内容,如果未能解决你的问题,请参考以下文章

在 MATLAB 中使用感知器对数据进行分类

MATLAB:使用 fitctree 训练的分类器对新数据进行标签预测

如何让朴素贝叶斯分类器工作?

如何获得分类器对sklearn中预测的置信度分数?

如何针对我的 NLP 朴素贝叶斯分类器测试新词集

我的 CNN 分类器对随机图像给出了错误的预测