稀疏数据的分类
Posted
技术标签:
【中文标题】稀疏数据的分类【英文标题】:Classification of sparse data 【发布时间】:2016-09-26 15:19:22 【问题描述】:我正在为分类/预测问题的最佳选择而苦苦挣扎。让我解释一下这个任务——我有一个来自不同研究论文摘要的关键词数据库,还有一个具有特定影响因子的期刊列表。我想建立一个基于关键字的文章分类模型,结果是给定关键字的可能影响因子(仅作为一个数字,没有任何进一步的期刊描述)。我删除了唯一的关键字标签,因为它们没有太大的统计意义,所以我的摘要列表中只有重复 2 次或更多次的关键字(总共 6000 个关键字)。我考虑虚拟编码——对于每篇文章,我将创建一个长度为 6000 个属性的二进制特征向量——每个属性指的是摘要中关键字的存在,并通过 SVM 对整个集合进行分类。我很确定这个解决方案不是很优雅,而且可能也不正确,你有什么更好的交易建议吗?
【问题讨论】:
【参考方案1】:对文本和支持向量机使用这种编码策略没有任何问题。
为了你的实际目标:
支持向量回归(SVR)可能更合适 注意期刊影响因子。它非常粗糙。您需要考虑时间方面;许多非常好的作品根本没有发表在期刊上【讨论】:
以上是关于稀疏数据的分类的主要内容,如果未能解决你的问题,请参考以下文章
将分类测试数据加载到 Apache Spark 中的稀疏向量中
TypeError:传递了稀疏矩阵,但需要密集数据。使用 X.toarray() 转换为密集的 numpy 数组。使用 NaiveBayes 分类器