如何在词袋中组合多个特征集

Posted

技术标签:

【中文标题】如何在词袋中组合多个特征集【英文标题】:How to combine multiple feature sets in bag of words 【发布时间】:2015-12-27 20:20:54 【问题描述】:

我有文本分类数据,其预测取决于类别、“描述”和“组件”。我可以使用 python 中的词袋和“描述”上的 scikit 进行分类。但是我想使用词袋中的两个类别来获得预测,这些类别对单个特征集具有权重 x = 描述 + 2* 组件 我应该如何进行?

【问题讨论】:

您可以连接特征集,也可以对其赋予权重。 【参考方案1】:

您可以为描述和商家训练单个分类器,并使用score = w1 * predictions + w2 * components.获得最终分数

w1w2的值应该通过交叉验证获得。

或者,您可以通过组合训练数据集来训练单个多类分类器。

您现在将拥有 4 个类:

    既不是“预测”也不是“组件” “预测”而非“组件” 不是“预测”而是“组件” “预测”和“组件”

你可以像往常一样继续训练。

【讨论】:

有没有办法将词袋模型本身的两个类别结合起来,而不是单独训练分类器?

以上是关于如何在词袋中组合多个特征集的主要内容,如果未能解决你的问题,请参考以下文章

用于分类的多个不同大小的特征集

如何重新设计这个 SQL 数据结构?

如何使用 Scala 运行具有分类特征集的 Spark 决策树?

如何在词嵌入层之前应用 SMOTE 技术(过采样)

如何在多个条件上加入,返回两个条件的所有组合

城市更新「意愿征集」具体怎么做?——本人以实操多个项目的具体经验给大家做分享