文本分类:多标签文本分类与多类文本分类

Posted

技术标签:

【中文标题】文本分类:多标签文本分类与多类文本分类【英文标题】:Text Classification: Multilable Text Classification vs Multiclass Text Classification 【发布时间】:2016-06-14 17:21:43 【问题描述】:

我对处理多标签分类问题的方法有疑问。

根据文献回顾,我发现一种最常用的方法是问题转换方法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单联合,使用二元相关方法。

由于单个标签问题可以分类为二进制分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),当前的转换方法似乎都将多标签问题转换为一些二元问题。但这会导致数据不平衡问题,因为负类可能比正类拥有更多的文档。

所以我的问题是,为什么不转化为多个多类问题,然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个经过训练的单标签多类分类器都会预测是否分配标签,所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

综上所述,相比将多标签分类问题转化为多个二元分类问题,将多标签分类问题转化为多个多类分类问题可以避免数据不平衡问题。除此之外,以上两种方法的一切都保持不变:您需要构造|L|(|L|表示分类问题中不同标签的总数)单标签(二元或多类)分类器,您需要准备 |L|训练数据集和测试数据集,需要在测试文档上测试每个单标签分类器,每个单标签分类器的预测结果的并集就是测试文档的最终标签集。

希望有人能帮助澄清我的困惑,非常感谢!

【问题讨论】:

【参考方案1】:

您描述的是一种已知的多类问题转换策略,称为标签幂集转换策略。

这种方法的缺点:

LP 变换可能导致高达 2^|L|变身 标签。 类不平衡问题。

参考: 切尔曼、埃弗顿阿尔瓦雷斯、玛丽亚卡罗莱纳莫纳德和让梅斯。 “多标签问题转换方法:案例研究”。 CLEI 电子期刊 14.1 (2011): 4-4.

【讨论】:

以上是关于文本分类:多标签文本分类与多类文本分类的主要内容,如果未能解决你的问题,请参考以下文章

如何用softmax和sigmoid来做多类分类和多标签分类

如何解决基于 NLP 的 CNN 模型中的过度拟合问题,以使用词嵌入进行多类文本分类?

如何处理多类文本分类中不在训练集中的测试集标签?

使用 python 和 nltk 进行多类文本分类

BERT-多标签文本分类实战之一——实战项目总览

BERT-多标签文本分类实战之一——实战项目总览