稀疏数据的分类

Posted

技术标签:

【中文标题】稀疏数据的分类【英文标题】:Classification of sparse data 【发布时间】:2016-09-26 15:19:22 【问题描述】:

我正在为分类/预测问题的最佳选择而苦苦挣扎。让我解释一下这个任务——我有一个来自不同研究论文摘要的关键词数据库,还有一个具有特定影响因子的期刊列表。我想建立一个基于关键字的文章分类模型,结果是给定关键字的可能影响因子(仅作为一个数字,没有任何进一步的期刊描述)。我删除了唯一的关键字标签,因为它们没有太大的统计意义,所以我的摘要列表中只有重复 2 次或更多次的关键字(总共 6000 个关键字)。我考虑虚拟编码——对于每篇文章,我将创建一个长度为 6000 个属性的二进制特征向量——每个属性指的是摘要中关键字的存在,并通过 SVM 对整个集合进行分类。我很确定这个解决方案不是很优雅,而且可能也不正确,你有什么更好的交易建议吗?

【问题讨论】:

【参考方案1】:

对文本和支持向量机使用这种编码策略没有任何问题。

为了你的实际目标:

支持向量回归(SVR)可能更合适 注意期刊影响因子。它非常粗糙。您需要考虑时间方面;许多非常好的作品根本没有发表在期刊上

【讨论】:

以上是关于稀疏数据的分类的主要内容,如果未能解决你的问题,请参考以下文章

将分类测试数据加载到 Apache Spark 中的稀疏向量中

重学数据结构 --- 分类+稀疏数组

一种热编码分类特征 - 仅稀疏形式

稀疏二元矩阵的二元分类

TypeError:传递了稀疏矩阵,但需要密集数据。使用 X.toarray() 转换为密集的 numpy 数组。使用 NaiveBayes 分类器

radar毫米波雷达动态障碍物检测相关论文汇总(聚类分类稀疏2D点4D点雷达成像原始数据处理)