论文泛读152R2D2:基于可微分树的递归变换器,用于可解释的分层语言建模
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读152R2D2:基于可微分树的递归变换器,用于可解释的分层语言建模相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
一、摘要
人类语言理解在多个粒度级别(例如,单词、短语和句子)上运行,并且可以分层组合的抽象级别越来越高。然而,现有的具有堆叠层的深层模型并没有明确地对任何类型的分层过程进行建模。本文提出了一种基于可微 CKY 风格二叉树的递归 Transformer 模型来模拟组合过程。我们将双向语言模型预训练目标扩展到该架构,尝试根据每个单词的左右抽象节点预测每个单词。为了扩大我们的方法,我们还引入了一种有效的修剪树归纳算法,以仅在线性数量的组合步骤中启用编码。语言建模和无监督解析的实验结果表明了我们方法的有效性。
二、结论
在这篇文章中,我们提出了一个有效的基于CKY来直接模拟语言话语中的层次结构。我们已经确定了我们的方法在语言建模和无监督解析上的有效性。在我们高效的线性剪枝树归纳算法的帮助下,我们的模型在没有任何句法监督的情况下快速学习可解释的树结构,这仍然被证明与人类注释的树高度兼容。作为未来的工作,我们正在研究在十亿字语料库上预训练我们的模型,就像对BERT所做的那样,并在下游任务上微调我们的模型。
三、几个算法及编码实例
算法1,修剪树归纳算法:
算法2:找最佳合并点算法:
编码实例:
四、model
模型框架:
给定上下文,我们直接最小化所有单词或词块的所有负对数概率之和。
输出树示例:
以上是关于论文泛读152R2D2:基于可微分树的递归变换器,用于可解释的分层语言建模的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读164MECT:基于多元数据嵌入的中文命名实体识别交叉变换器
论文泛读 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
论文泛读145从知识图中评估模板和基于 ML 的用户可读文本生成
论文泛读129Transformer 语言模型可以使用哪些上下文特征?