论文泛读158时间感知古汉语文本翻译与推理

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读158时间感知古汉语文本翻译与推理相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《Time-Aware Ancient Chinese Text Translation and Inference》

一、摘要

在本文中,我们旨在解决围绕中国古代文本翻译的挑战:(1)由于时代差异导致的语言差异导致翻译质量不佳,以及(2)大多数翻译缺少上下文信息这对于理解文本通常非常重要。为此,我们通过提出以下建议来改进过去的翻译技术:我们将任务重新构建为多标签预测任务,其中模型预测翻译及其特定时代。我们观察到这有助于弥合语言鸿沟,因为时间顺序上下文也被用作辅助信息。% 作为泛化的自然步骤,我们以现代中文翻译为中心来生成多语言输出。我们通过实验展示了我们的框架在生成高质量翻译输出方面的功效,并在收集的特定于任务的平行语料库上验证了我们的框架。我们在一个用年表信息注释的平行语料库上验证了我们的框架,并通过实验证明了它在产生高质量翻译输出方面的功效。我们同时发布代码和数据以供将来研究:github

二、结论

在这篇论文中,我们提出了一个框架,在低资源场景下,用很少的并行数据和大量没有古今对齐信息的非平行句子,将古代汉语文本翻译成现代对应。我们展示了年代推断作为一项辅助任务的重要性和有用性,它暗示了潜在的历时语义空白。我们希望扩展这项研究,以进一步模拟每个时代的附加上下文信息。

  • 我们表明,将各个时代的古代汉语文本放在一个语料库中并不理想,因为它们很难作为一个单一的分布来共同建模,而且额外的时间背景有助于改进古代汉语到现代汉语句子的翻译。
  • 对于这个方向的未来研究,我们发布了我们的代码和由注释的时间标识符组成的并行数据,这允许在实际环境中推断书面文本的大致时代。

三、模型

翻译给定的古代汉语文本(4.1),同时提供额外的时间上下文信息(4.2)(见表1)。我们以半监督的方式训练翻译模型,以便在训练过程中可以利用廉价且容易获得的现代中文文本。为了以时间感知的方式更好地从生成的候选库中进行选择,我们使用多标签预测模型作为重新排序器和年表预测器。预测的时间周期也为用户提供了理解古代文本的关键背景。

由古代汉语源、现代汉语参考和年代预测组成的系统输出示例:
在这里插入图片描述

多标签预测模型的使用不仅允许比纯翻译更好的上下文,而且有助于提高翻译任务的总体性能。此外,按时间顺序更接近现代汉语(汉和宋)的古代文本翻译往往会产生更好的表现,因为语义差距通常更小。我们还证明了利用额外的非平行文本的半监督训练有助于进一步改进翻译模型。

感觉是个比较新颖的方向,离现在越近的表现越好,也符合逻辑~

以上是关于论文泛读158时间感知古汉语文本翻译与推理的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读128CausalNLP:文本因果推理的实用工具包

论文泛读69利用束密集检索对非结构化文本进行多步推理

论文泛读70检索,阅读,重新排序,然后进行迭代:从文本中回答各种推理步骤的开放域问题

论文泛读180反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性

论文泛读180反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性

论文泛读131DocNLI:用于文档级自然语言推理的大规模数据集