如何在词袋中组合多个特征集
Posted
技术标签:
【中文标题】如何在词袋中组合多个特征集【英文标题】:How to combine multiple feature sets in bag of words 【发布时间】:2015-12-27 20:20:54 【问题描述】:我有文本分类数据,其预测取决于类别、“描述”和“组件”。我可以使用 python 中的词袋和“描述”上的 scikit 进行分类。但是我想使用词袋中的两个类别来获得预测,这些类别对单个特征集具有权重 x = 描述 + 2* 组件 我应该如何进行?
【问题讨论】:
您可以连接特征集,也可以对其赋予权重。 【参考方案1】:您可以为描述和商家训练单个分类器,并使用score = w1 * predictions + w2 * components.
获得最终分数
w1
和w2
的值应该通过交叉验证获得。
或者,您可以通过组合训练数据集来训练单个多类分类器。
您现在将拥有 4 个类:
-
既不是“预测”也不是“组件”
“预测”而非“组件”
不是“预测”而是“组件”
“预测”和“组件”
你可以像往常一样继续训练。
【讨论】:
有没有办法将词袋模型本身的两个类别结合起来,而不是单独训练分类器?以上是关于如何在词袋中组合多个特征集的主要内容,如果未能解决你的问题,请参考以下文章