恒源云_LLD: 内部数据指导的标签去噪方法ACL 2022

Posted 2022-01-06 AI酱油君

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了恒源云_LLD: 内部数据指导的标签去噪方法ACL 2022相关的知识，希望对你有一定的参考价值。

原文作者 | Mathor

大佬发文太勤快，再不搬运，我自己都不好意思了，所以今天给大家带来新的内容啦～

正文开始：

很多数据集中的标签都存在错误，即便它们是由人来标注的，错误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除错误标签、降低其权重等方法。ACL2022有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于样本内部指导的方法解决这个问题

先前有研究表明同一类别的样本在本质上是相似和相关的，不同类别的样本存在明显差异。在文本分类任务中，两个有着相似内容的句子应该被预测为同一个类别，但是实际情况并不总是这样。当训练数据面临一定程度的噪声时，这个问题可能会更加严重，因为模型只收到标签的指导/监督。这就自然而然提出了一个问题：除了标签之外，我们能否从训练样本之间的关系寻求指导？

以文本分类数据为例，有 $n$ 个样本的数据集可以被定义为

其中， $y_i\\in c_1, c_2,…,c_m$ 表示共有 $m$ 类

CONTEXTUAL REPRESENTATION

我们首先需要一个指标判断两个句子是否相似。目前有两大类文本相似度计算方法，第一种是基于传统的符号表征，例如编辑距离、Jaccard Similarity Coeffieient以及Earth Mover’s Distance；第二种是将文本映射为稠密的向量，然后计算它们的向量相似度。第一种方法过于依赖token的表面信息，第二种方法需要使用外部数据对模型进行预训练，而这个外部数据和我们的任务数据可能不是同一领域的。因此作者基于Postive Pointwise Mutual Information (PPMI)提出了一个新的上下文表征方法

首先，我们用一个长度为2的滑动窗口统计数据集中所有token的共现矩阵 $C$ 。 $C_w_i, w_j$ 表示前一个词是 $w_i$ ，后一个词是 $w_j$ 出现的次数，然后我们计算 $C$ 的PPMI矩阵 $E$ ：

其中， $P(w_i), P(w_j), P(w_i, w_j)$ 分别是从共现矩阵 $C$ 中计算得到的。最终，向量 $E_w_i$ 是词 $w_i$ 的表示

WORD WEIGHT

由于不同的词对于句子含义的贡献不同，我们更关注那些对分类更有帮助的词，而不是一些常见的词（例如a, the, of）。作者提出一个计算词 $w_i$ 权重的算法：

其中， $c$ 是词 $w_i$ 出现频率最高的类别， $p_c^w_i$ 是类别 $c$ 中单词 $w_i$ 的样本数， $p_\\tildec^w_i$ 是除了类别 $c$ 之外所有类别中单词 $w_i$ 的样本数， $p_c||_1$ 是类别 $c$ 的样本数， $\\alpha$ 是一个小的平滑值（例如0.1）。

GUIDING THE TRAINING

给定包含 $d$ 个单词的句子 $a$ ，以及包含 $e$ 个单词的句子 $b$ ，它们的相似度为：

很明显， $T_\\textsim(a,b)$ 总是大于0的，因为 $q_w_i$ 一定大于等于0，向量 $E_i$ 中的元素根据计算公式也都是大于等于0的， $\\cos(A,B)$ 中，当向量 $A$ 和 $B$ 中的元素都大于等于0时，结果一定大于0