稀疏二元矩阵的二元分类

Posted

技术标签:

【中文标题】稀疏二元矩阵的二元分类【英文标题】:binary classification with sparse binary matrix 【发布时间】:2016-07-12 10:58:02 【问题描述】:

我的犯罪分类数据集有指标特征,例如has_rifle

工作是训练和预测数据点是否是罪犯。该指标是加权平均绝对误差,如果此人是罪犯,并且模型预测他/她不是,那么权重为5。如果此人不是犯罪分子并且模型预测他/她是,那么权重是1。否则模型预测正确,权重为0

我在R 中的mlr 中使用了classif:multinom 方法,并将阈值调整为1/6。结果不是那么好。 Adaboost 稍微好一点。虽然两者都不完美。

我想知道在这种具有稀疏0,1 矩阵的二元分类问题中通常使用哪种方法?以及如何提高加权平均绝对误差度量的性能?

【问题讨论】:

我认为最好在stats.stackexchange.com/questions 或datascience.stackexchange.com/users/13936 上问这个问题 你可以看看这个备忘单:scikit-learn.org/stable/tutorial/machine_learning_map/…,即使你不是在 python 中编码。 【参考方案1】:

处理稀疏数据并非易事。缺乏信息使得难以捕捉诸如方差之类的特征。我建议您搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想提高分类准确度时,这是一个很好的方法。

【讨论】:

以上是关于稀疏二元矩阵的二元分类的主要内容,如果未能解决你的问题,请参考以下文章

稀疏矩阵的压缩存储思想?

机器学习评价指标 本文针对二元分类器

向量矩阵乘法、浮点向量、二进制矩阵

RandomForestClassifier 如何进行分类?

Weka - 给出极化/有偏结果的二元分类

如何组成一个矩阵来执行世界坐标的等距(二元)投影?