多标签分类策略

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多标签分类策略相关的知识,希望对你有一定的参考价值。

参考技术A 让我们来看看下面的图片。

如果问你这幅图中有什么?
有房子,有树,有山,有云。
当然没有人,没有太阳,没用动物。那么这样图片就可以如下标签化。

因此,对这类问题进行分类,称之为多标签分类问题。唯一区别于多分类在于:一个样本是否可以拥有多个标签。

基本上,有三种方法可以用来解决一个多标签分类问题,即:

本篇主要将如何进行问题转换。

转换为

训练4个而分类模型,以此判断是否属于各个模型。

将数据转化为:

同样是分为四个类,但不同意方法一,方法二考虑了标签之间的关联性。将上一个类作为下一个类别的特征。

将多标签分类转化为多分类问题。

即:通过标签的多种组合形成唯一的类。
转化为如下数据,变为多分类问题:

参考文献:
http://www.atyun.com/5376.html

文本分类:多标签文本分类与多类文本分类

【中文标题】文本分类:多标签文本分类与多类文本分类【英文标题】:Text Classification: Multilable Text Classification vs Multiclass Text Classification 【发布时间】:2016-06-14 17:21:43 【问题描述】:

我对处理多标签分类问题的方法有疑问。

根据文献回顾,我发现一种最常用的方法是问题转换方法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单联合,使用二元相关方法。

由于单个标签问题可以分类为二进制分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),当前的转换方法似乎都将多标签问题转换为一些二元问题。但这会导致数据不平衡问题,因为负类可能比正类拥有更多的文档。

所以我的问题是,为什么不转化为多个多类问题,然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个经过训练的单标签多类分类器都会预测是否分配标签,所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

综上所述,相比将多标签分类问题转化为多个二元分类问题,将多标签分类问题转化为多个多类分类问题可以避免数据不平衡问题。除此之外,以上两种方法的一切都保持不变:您需要构造|L|(|L|表示分类问题中不同标签的总数)单标签(二元或多类)分类器,您需要准备 |L|训练数据集和测试数据集,需要在测试文档上测试每个单标签分类器,每个单标签分类器的预测结果的并集就是测试文档的最终标签集。

希望有人能帮助澄清我的困惑,非常感谢!

【问题讨论】:

【参考方案1】:

您描述的是一种已知的多类问题转换策略,称为标签幂集转换策略。

这种方法的缺点:

LP 变换可能导致高达 2^|L|变身 标签。 类不平衡问题。

参考: 切尔曼、埃弗顿阿尔瓦雷斯、玛丽亚卡罗莱纳莫纳德和让梅斯。 “多标签问题转换方法:案例研究”。 CLEI 电子期刊 14.1 (2011): 4-4.

【讨论】:

以上是关于多标签分类策略的主要内容,如果未能解决你的问题,请参考以下文章

分类家族:二分类多分类多标签分类多输出分类

ML-10多分类及多标签分类算法

多标签分类及多输出分类

多标签文本分类《基于标签语义注意力的多标签文本分类》

多标签文本分类《基于标签语义注意力的多标签文本分类》

文本分类:多标签文本分类与多类文本分类