论文泛读131DocNLI：用于文档级自然语言推理的大规模数据集

Posted 2021-06-29 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读131DocNLI：用于文档级自然语言推理的大规模数据集相关的知识，希望对你有一定的参考价值。

论文链接：《DocNLI: A Large-scale Dataset for Document-level Natural Language Inference》

一、摘要

自然语言推理 (NLI) 被制定为解决各种 NLP 问题（例如关系提取、问答、摘要等）的统一框架。由于大规模标记数据集的可用性，它在过去几年中得到了深入研究。然而，大多数现有研究仅关注句子级推理，这限制了 NLI 在下游 NLP 问题中的应用范围。这项工作展示了 DocNLI——一个新构建的用于文档级 NLI 的大规模数据集。DocNLI 从广泛的 NLP 问题转化而来，涵盖多种类型的文本。前提始终保持在文档粒度上，而假设的长度从单个句子到包含数百个单词的段落不等。此外，DocNLI 的工件非常有限，不幸的是，这些工件广泛存在于一些流行的句子级 NLI 数据集中。我们的实验表明，即使没有微调，在 DocNLI 上预训练的模型在流行的句子级基准测试中也表现出良好的性能，并且可以很好地推广到依赖文档粒度推理的域外 NLP 任务。针对特定任务的微调可以带来进一步的改进。可以在以下位置找到数据、代码和预训练模型：github。

二、结论

在这项工作中，我们收集并发布了一个大规模的文档级NLI数据集DOCNLI。它涵盖了多种体裁和多种长度范围的前提和假设。我们希望这个数据集可以帮助解决一些需要文档级推理的NLP问题，如QA、摘要、事实检查等。实验表明，DOCNLI模型可以很好地概括下游的NLP任务和一些常用的句子级NLI任务。

三、数据集介绍

DOCNLI与最终的NLP任务高度相关。对DOCNLI来说，一个性能良好的系统有望为解决其他NLP挑战带来启示。
前提总是有多个句子;其中大多数是自然文档，如新闻文章。假设的长度有很多种，从一个句子到上百个单词的文档。通过这种设置，我们希望系统能够学会处理未来需要推断一段文本的真值而不管其长度的应用程序。
与一些现有的句子级NLI数据集相比，DOCNLI的人工制品非常有限。我们提出了一种新的方法来断开潜在的工件与NLI任务本身;“仅基于假设”的基线很难发现一些虚假的相关性。

重新格式化为DOCNLI的数据资源：
在这里插入图片描述

以上是关于论文泛读131DocNLI：用于文档级自然语言推理的大规模数据集的主要内容，如果未能解决你的问题，请参考以下文章

论文泛读158时间感知古汉语文本翻译与推理

论文速递NAACL2022- 文档级事件论元抽取的双流AMR增强模型

论文泛读128CausalNLP：文本因果推理的实用工具包

论文泛读111DialogueCRN：对话中情绪识别的上下文推理网络

论文泛读69利用束密集检索对非结构化文本进行多步推理

论文泛读70检索，阅读，重新排序，然后进行迭代：从文本中回答各种推理步骤的开放域问题