如何组合不同的特征并将其提供给文本分类算法

Posted

技术标签:

【中文标题】如何组合不同的特征并将其提供给文本分类算法【英文标题】:how to combine and feed different features to an algorithm for text classification 【发布时间】:2016-04-15 18:50:56 【问题描述】:

我有一些 120k 文本文件和 12 个类别,我想将这些文档分类到其中。 我使用简单的词袋模型并将其提供给 NaiveBayes。但是有人告诉我,使用混合功能会“有帮助”,或者我至少应该尝试一下。例如:-

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags 

但问题是如何将这两个/三个不同的功能组合为每个文档的单个功能? 其次,哪种“特征混合”最有助于文档分类?

【问题讨论】:

为什么不为每个文档创建一个向量?比如计算 Bag of words 向量,计算出 Bigrams 向量后,将两个向量连接起来。(应该是非常大的稀疏向量)。 【参考方案1】:

您可以尝试以下操作:

为每个文档计算例如 Bag of words 向量和 Bigrams 向量。

连接两个向量得到一个大的稀疏向量。

使用一些降维技术可以找到低维嵌入,其中每个特征都是原始特征的组合。 你可以试试PCA或者LDA(线性判别分析)。

【讨论】:

以上是关于如何组合不同的特征并将其提供给文本分类算法的主要内容,如果未能解决你的问题,请参考以下文章

文本分类特征工程概述

基于Naive Bayes算法的文本分类

利用神经网络进行文本分类算法综述(持续更新中)

如何使用火花朴素贝叶斯分类器进行 IDF 文本分类?

step by step带你RCNN文本分类

文本分类 - 如何找到对决策影响最大的特征