论文泛读157文本分类数据增强调查

Posted 2021-08-08 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读157文本分类数据增强调查相关的知识，希望对你有一定的参考价值。

论文链接：《A Survey on Data Augmentation for Text Classification》

一、摘要

数据增强，即通过转换为机器学习人工创建训练数据，是跨机器学习学科广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用，但它也可以解决许多其他挑战和问题，从克服有限数量的训练数据到规范目标到限制用于保护隐私的数据量。基于对数据增强 (C1) 的目标和应用以及现有作品分类法 (C2) 的精确描述，本次调查关注用于文本分类的数据增强方法，旨在为研究人员和从业者提供简明而全面的概述(C3)。从分类学派生，我们将 100 多种方法分为 12 个不同的组，并提供了最先进的参考资料，阐述了哪些方法非常有前途 (C4)。最后，给出了可能构成未来工作基石的研究观点（C5）。

二、结论

这项调查概述了适合文本领域的数据扩充方法。数据扩充有助于实现许多目标，包括规范化、最大限度地减少标记工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及增强对抗攻击的鲁棒性(参见第2节)。在高层次上，数据增强方法被区分为应用于特征和数据空间的方法。然后，这些方法被细分为更细粒度的组，从噪声归纳到全新实例的生成。此外，我们还提出了几个与未来工作相关的有前途的研究方向。特别是在这方面，对当前技术水平的整体看法是必要的。例如，迁移学习方法的使用越来越多，使得一些数据扩充方法过时，因为它们遵循相似的目标。因此，正如Longpre等人所建议的，需要更复杂的方法，例如，能够引入审前处理期间没有看到的新的语言模式。

虽然数据扩充越来越多地被研究并且非常有前景，但是它也有一些局限性。例如，许多数据扩充方法只能在原始数据量足够大的情况下创建高质量的扩充数据。此外，像Shorten和Khoshgoftaar描述的那样，数据扩充不能覆盖所有的转换可能性，也不能消除原始数据中的各种偏差。采用sport和Khoshgoftaar的例子，在没有包含体育的文章的新闻分类任务中，标准数据30增强方法肯定也不会创建体育文章，尽管这是必要的。相比之下，数据扩充可能会引发新的不良偏见。例如，像GPT-2这样的语言模型可以包含偏差，然后将偏差传播到数据集中。各种各样的技术和一些非常复杂的方法也带来了另一层需要理解的复杂性。此外，数据扩充可能花费大量时间，使得并非所有方法对于时间关键的机器学习开发领域都是可行的，例如在危机信息学的某些领域。随着数据的增加，也出现了对更多资源的需求，尤其是在训练生成模型的背景下。

三、简述

建议精读一下吧，文本方面的数据增强，可以对这一领域有一个系统的了解和大概的方向。

以上是关于论文泛读157文本分类数据增强调查的主要内容，如果未能解决你的问题，请参考以下文章