论文泛读152R2D2：基于可微分树的递归变换器，用于可解释的分层语言建模

Posted 2021-08-01 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读152R2D2：基于可微分树的递归变换器，用于可解释的分层语言建模相关的知识，希望对你有一定的参考价值。

论文链接：《R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling》

一、摘要

人类语言理解在多个粒度级别（例如，单词、短语和句子）上运行，并且可以分层组合的抽象级别越来越高。然而，现有的具有堆叠层的深层模型并没有明确地对任何类型的分层过程进行建模。本文提出了一种基于可微 CKY 风格二叉树的递归 Transformer 模型来模拟组合过程。我们将双向语言模型预训练目标扩展到该架构，尝试根据每个单词的左右抽象节点预测每个单词。为了扩大我们的方法，我们还引入了一种有效的修剪树归纳算法，以仅在线性数量的组合步骤中启用编码。语言建模和无监督解析的实验结果表明了我们方法的有效性。

二、结论

在这篇文章中，我们提出了一个有效的基于CKY来直接模拟语言话语中的层次结构。我们已经确定了我们的方法在语言建模和无监督解析上的有效性。在我们高效的线性剪枝树归纳算法的帮助下，我们的模型在没有任何句法监督的情况下快速学习可解释的树结构，这仍然被证明与人类注释的树高度兼容。作为未来的工作，我们正在研究在十亿字语料库上预训练我们的模型，就像对BERT所做的那样，并在下游任务上微调我们的模型。

三、几个算法及编码实例

算法1，修剪树归纳算法：
在这里插入图片描述
算法2：找最佳合并点算法：

编码实例：

在这里插入图片描述

四、model

模型框架：
在这里插入图片描述
给定上下文，我们直接最小化所有单词或词块的所有负对数概率之和。

输出树示例：

以上是关于论文泛读152R2D2：基于可微分树的递归变换器，用于可解释的分层语言建模的主要内容，如果未能解决你的问题，请参考以下文章