稀疏数据的分类

Posted 2023-03-13

技术标签:

【中文标题】稀疏数据的分类【英文标题】：Classification of sparse data 【发布时间】：2016-09-26 15:19:22 【问题描述】：

我正在为分类/预测问题的最佳选择而苦苦挣扎。让我解释一下这个任务——我有一个来自不同研究论文摘要的关键词数据库，还有一个具有特定影响因子的期刊列表。我想建立一个基于关键字的文章分类模型，结果是给定关键字的可能影响因子（仅作为一个数字，没有任何进一步的期刊描述）。我删除了唯一的关键字标签，因为它们没有太大的统计意义，所以我的摘要列表中只有重复 2 次或更多次的关键字（总共 6000 个关键字）。我考虑虚拟编码——对于每篇文章，我将创建一个长度为 6000 个属性的二进制特征向量——每个属性指的是摘要中关键字的存在，并通过 SVM 对整个集合进行分类。我很确定这个解决方案不是很优雅，而且可能也不正确，你有什么更好的交易建议吗？

【问题讨论】：

【参考方案1】：

对文本和支持向量机使用这种编码策略没有任何问题。

为了你的实际目标：

支持向量回归（SVR）可能更合适注意期刊影响因子。它非常粗糙。您需要考虑时间方面；许多非常好的作品根本没有发表在期刊上

【讨论】：

以上是关于稀疏数据的分类的主要内容，如果未能解决你的问题，请参考以下文章

将分类测试数据加载到 Apache Spark 中的稀疏向量中

重学数据结构 --- 分类+稀疏数组

一种热编码分类特征 - 仅稀疏形式

稀疏二元矩阵的二元分类

TypeError：传递了稀疏矩阵，但需要密集数据。使用 X.toarray() 转换为密集的 numpy 数组。使用 NaiveBayes 分类器