多标签文本分类Large Scale Multi-label Text Classification with Semantic Word Vectors

Posted 征途黯然.

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多标签文本分类Large Scale Multi-label Text Classification with Semantic Word Vectors相关的知识,希望对你有一定的参考价值。

·阅读摘要:
  本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题。
  [1] Large Scale Multi-label Text Classification with Semantic Word Vectors

[0] 摘要

  已有的多标签文本分类算法不考虑词序,选择使用词袋模型或TFIDF加权来创建文档向量。

  论文提出使用词嵌入和词序来提高多标签学习能力。使用卷积神经网络(CNN)和带有门控循环单元(GRU)的循环网络独立地用于预训练的word2vec嵌入,解决大规模的多标签文本分类问题。

【注一】:读到这里能发现论文发布地比较早。目前预训练的embedding已经很成熟了。

[1] 介绍

  语义词向量还没有被用于多标签文本分类领域。相反,多标签学习算法对模型文本使用单词袋表示或TF-IDF加权,它不考虑词序,会限制训练中使用的词汇量。

  为了克服这些缺点,论文提出在卷积神经网络(CNN)和带有门控循环单元(GRU)的循环神经网络模型中使用单词嵌入。

  CNN模型和GRU模型的性能都超过了流行的 二进制相关性方法

【注二】:二进制相关性方法在下面有介绍。

[2] 相关工作

[2.1] 多标签文本分类概述⭐

  解决多标签学习的算法可以大致分为三种:

  1、多标签分类;
  2、标签排序;
  3、多标签排序;

  多标签分类算法接受一个输入X,然后生成两部分的集合Y和¯Y,其中Y是相关标签的集合,而¯Y是Y的补码。

  标签排名并不决定一个分区,而是将标签从相关到不相关排序,索引越低表明相关性越高。

  多标签排序被看作是两者的结合,因为它产生标签的排序,以及一个双分区。也就是说,算法的目标是让Y中的标签比¯Y中的所有标签都要高。然后学习或手动设置阈值函数,以确定排序后的数组中有多少标签是相关的。

[2.2] 二进制关联(BR)方法

  该方法将多标签问题转化为一组多个二分类问题,其中每个问题对应一个特定的标签。

  该方法有下列缺点:

  1、首先,二元关联假设标签是独立的,这通常是一个错误的假设;
  2、由于丢弃标签相关性,BR常常无法预测不同的组合或标签,从而导致性能下降;
  3、数据集的不平衡也会对分类器产生更大的影响,因为负面例子的数量往往超过正面例子;
  4、BR可能会训练不必要数量的分类器。

[2.3] 前馈网络

  论文介绍了2种损失函数地计算方法:

  1、Zhang提出的

  2、Nam提出的使用标准的交叉熵误差函数代替Zhang提出的误差函数。

【注三】:交叉熵误差函数很重要,实现方法参考:https://blog.csdn.net/qq_43592352/article/details/122784389

[3] 卷积神经网络

  与Kim在2014年发布的TextCNN网络模型基本一致。

[4] 门控循环神经网络

  其实就是LSTM。

以上是关于多标签文本分类Large Scale Multi-label Text Classification with Semantic Word Vectors的主要内容,如果未能解决你的问题,请参考以下文章

多标签文本分类Initializing neural networks for hierarchical multi-label text classification

多标签文本分类SGM: Sequence Generation Model for Multi-Label Classification

多标签文本分类HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization

多标签分类

多标签文本分类Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text

多标签文本分类Improved Neural Network-based Multi-label Classification with Better Initialization ……