稀疏二元矩阵的二元分类
Posted
技术标签:
【中文标题】稀疏二元矩阵的二元分类【英文标题】:binary classification with sparse binary matrix 【发布时间】:2016-07-12 10:58:02 【问题描述】:我的犯罪分类数据集有指标特征,例如has_rifle
。
工作是训练和预测数据点是否是罪犯。该指标是加权平均绝对误差,如果此人是罪犯,并且模型预测他/她不是,那么权重为5
。如果此人不是犯罪分子并且模型预测他/她是,那么权重是1
。否则模型预测正确,权重为0
。
我在R
中的mlr
中使用了classif:multinom
方法,并将阈值调整为1/6
。结果不是那么好。 Adaboost
稍微好一点。虽然两者都不完美。
我想知道在这种具有稀疏0,1
矩阵的二元分类问题中通常使用哪种方法?以及如何提高加权平均绝对误差度量的性能?
【问题讨论】:
我认为最好在stats.stackexchange.com/questions 或datascience.stackexchange.com/users/13936 上问这个问题 你可以看看这个备忘单:scikit-learn.org/stable/tutorial/machine_learning_map/…,即使你不是在 python 中编码。 【参考方案1】:处理稀疏数据并非易事。缺乏信息使得难以捕捉诸如方差之类的特征。我建议您搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想提高分类准确度时,这是一个很好的方法。
【讨论】:
以上是关于稀疏二元矩阵的二元分类的主要内容,如果未能解决你的问题,请参考以下文章