论文泛读112CCPM：中国古诗匹配数据集

Posted 2021-06-24 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读112CCPM：中国古诗匹配数据集相关的知识，希望对你有一定的参考价值。

论文链接：《CCPM: A Chinese Classical Poetry Matching Dataset》

一、摘要

诗歌是人类语言最重要的艺术形式之一。最近，许多研究都集中在将诗歌的一些语言特征，如风格和情感，纳入其理解或生成系统。然而，没有关注理解或评估诗歌的语义。因此，我们提出了一项新任务，通过诗歌匹配来评估模型对诗歌的语义理解。具体来说，该任务要求模型根据现代汉语对某行诗的翻译，从 4 名候选者中选择出 1 行中国古典诗。为了构建这个数据集，我们首先获得一组中国古典诗歌和现代汉语翻译的平行数据。然后我们检索与诗歌语料库中的行相似的诗行作为否定选择。 github地址，我们希望该数据集能够进一步加强将深层语义融入中国古典诗歌理解和生成系统的研究。我们还在这个数据集上初步运行了两个 BERT 变体作为这个数据集的基线。

二、结论

本文提出了一种新颖的诗歌匹配任务，旨在评价学生对中国古典诗歌的语义理解能力。此外，我们还构建了一个数据集，收集了古诗及其译文的平行数据，检索了诗歌语料库中的相似诗句作为混淆选择。我们还运行了BERT模型的两种变体，并比较了结果。

将来，我们将通过三种方式进一步改进这个数据集。首先，我们将收集更多的并行数据，以增加该数据集的容量。其次，我们将探索更多令人困惑的构建消极选择的方法。第三，我们将在我们的基准上测试更常用的NLP模型。

提出了现代汉语古诗翻译与原诗行匹配的新任务；
在此任务上发布数据集，进一步评估和提高中国古典诗歌自动分析和自动生成模型的语义理解。

本文提到的一些相关数据集，可以在今后的一些对比实验中使用

以上是关于论文泛读112CCPM：中国古诗匹配数据集的主要内容，如果未能解决你的问题，请参考以下文章

论文泛读186QA 数据集爆炸：用于问答和阅读理解的 NLP 资源分类

论文泛读168对训练数据进行重复数据消除会使语言模型变得更好

论文泛读123跨语言情感检测

论文阅读2021中国法研杯司法考试数据集研究（CAIL2021）