论文泛读123跨语言情感检测

Posted 2021-06-28 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读123跨语言情感检测相关的知识，希望对你有一定的参考价值。

一、摘要

情绪检测对于理解人类非常重要。构建带注释的数据集来训练自动化模型的成本可能很高。我们探索了跨语言方法的功效，这些方法将使用源语言的数据来构建目标语言中的情感检测模型。我们比较了三种方法，即：i) 使用固有的多语言模型；ii) 将训练数据翻译成目标语言；iii) 使用自动标记的平行语料库。在我们的研究中，我们将英语作为源语言，阿拉伯语和西班牙语作为目标语言。我们研究了不同分类模型的有效性，例如使用不同特征训练的 BERT 和 SVM。我们在目标语言数据上训练的基于 BERT 的单语模型在阿拉伯语和西班牙语的绝对 Jaccard 得分上分别超过了最先进的 (SOTA) 4% 和 5%。接下来，我们展示了仅使用英语数据的跨语言方法，我们可以分别实现阿拉伯语和西班牙语 BERT 模型的 90% 和 80% 以上的相对有效性。最后，我们使用 LIME 来解释模型之间的差异。

二、结论

在本文中，我们研究了跨语言模型与单语模型在情感检测中的有效性。这些模型的有效性取决于不同语言和文化中情感表达方式的相似性。我们专注于使用英语情绪检测训练数据来训练模型，该模型可以使用11种不同的情绪来标记阿拉伯语/西班牙语推文，与单语模型相比，效率下降最小。我们提出了三种不同的跨语言方法，即：

i)多语言模型
ii)翻译训练集
ii)自动标记的并行语料库

我们分别试验了这些方法，并将它们与各种分类器组合在一起。我们还比较了跨语言模型和结合源语言和目标语言数据的组合模型。使用经过微调的语境嵌入的翻译英语训练集，对阿拉伯语和西班牙语都产生了最好的结果。这种跨语言模型有助于对特定语言数据进行注释，并显示情感在语言和文化之间的可转移性。我们还解释了不同模型的结果，以理解为什么跨语言模型会产生错误，而单语言模型不会(反之亦然)。我们的分析表明，虽然数据局限性是一个挑战，但翻译错误和文化差异会对跨语言模型产生不利影响。

通过将阿拉伯语/西班牙语的训练与英语的训练相结合，使小语种的数据集被英语扩充，克服语言障碍。

以上是关于论文泛读123跨语言情感检测的主要内容，如果未能解决你的问题，请参考以下文章