论文泛读123跨语言情感检测
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读123跨语言情感检测相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Cross-lingual Emotion Detection》
一、摘要
情绪检测对于理解人类非常重要。构建带注释的数据集来训练自动化模型的成本可能很高。我们探索了跨语言方法的功效,这些方法将使用源语言的数据来构建目标语言中的情感检测模型。我们比较了三种方法,即:i) 使用固有的多语言模型;ii) 将训练数据翻译成目标语言;iii) 使用自动标记的平行语料库。在我们的研究中,我们将英语作为源语言,阿拉伯语和西班牙语作为目标语言。我们研究了不同分类模型的有效性,例如使用不同特征训练的 BERT 和 SVM。我们在目标语言数据上训练的基于 BERT 的单语模型在阿拉伯语和西班牙语的绝对 Jaccard 得分上分别超过了最先进的 (SOTA) 4% 和 5%。接下来,我们展示了仅使用英语数据的跨语言方法,我们可以分别实现阿拉伯语和西班牙语 BERT 模型的 90% 和 80% 以上的相对有效性。最后,我们使用 LIME 来解释模型之间的差异。
二、结论
在本文中,我们研究了跨语言模型与单语模型在情感检测中的有效性。这些模型的有效性取决于不同语言和文化中情感表达方式的相似性。我们专注于使用英语情绪检测训练数据来训练模型,该模型可以使用11种不同的情绪来标记阿拉伯语/西班牙语推文,与单语模型相比,效率下降最小。我们提出了三种不同的跨语言方法,即:
- i)多语言模型
- ii)翻译训练集
- ii)自动标记的并行语料库
我们分别试验了这些方法,并将它们与各种分类器组合在一起。我们还比较了跨语言模型和结合源语言和目标语言数据的组合模型。使用经过微调的语境嵌入的翻译英语训练集,对阿拉伯语和西班牙语都产生了最好的结果。这种跨语言模型有助于对特定语言数据进行注释,并显示情感在语言和文化之间的可转移性。我们还解释了不同模型的结果,以理解为什么跨语言模型会产生错误,而单语言模型不会(反之亦然)。我们的分析表明,虽然数据局限性是一个挑战,但翻译错误和文化差异会对跨语言模型产生不利影响。
通过将阿拉伯语/西班牙语的训练与英语的训练相结合,使小语种的数据集被英语扩充,克服语言障碍。
以上是关于论文泛读123跨语言情感检测的主要内容,如果未能解决你的问题,请参考以下文章
《一种策略融合的跨语言文本情感倾向判别方法》论文学习笔记(大一下)
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射