RASATED Policy:Dialogue Transformers

Posted 小爷毛毛(卓寿杰)

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RASATED Policy:Dialogue Transformers相关的知识,希望对你有一定的参考价值。

最近工作中使用到rasa,其core部分有一个rasa自己提出的TED Policy框架组建,可用于进行对话决策。今天有空,就来研究下它~

论文《Dialogue Transformers》地址:https://arxiv.org/abs/1910.00486

让我们整体的看一下当 TED Policy从输入到输出进行预测时会发生什么。

在每个对话回合,TED Policy将3部分信息作为输入:用户消息的意图和实体、预测的先前执行的Action、槽位。这些中的每一个都在输入到transformer之前进行了特征化和连接。

那这3部分是如何特征化的呢?

  • 意图实体:对意图和实体进行token,再进行bag-of-words representation。所以TED Policy 需要用到NLU的Tokenizer、CountVectorsFeaturizer组件。
  • Action:将action name进行token,例如:action_search_restaurant = action, search, restaurant。然后就和意图实体的方法一致了。
  • 槽:在对话的每一步,槽总是被特征化为二进制向量,指示它们的存在、不存在或该值对用户不重要

自注意力机制发挥作用的地方:transformer 在每一轮动态访问对话历史的不同部分,然后评估和重新计算前几轮的相关性。这允许 TED Policy一次考虑用户话语,但在另一轮完全忽略它,这使得transformer 成为处理对话历史的有用架构。

接下来,将dense layer应用于transformer的输出以获得用于近似文本含义的嵌入数值特征,用于对话上下文和系统动作。计算嵌入之间的差异,TED Policy最大化与目标标签的相似性并最小化与错误标签的相似性,这是一种基于Starspace算法的技术。这种比较嵌入之间相似性的过程类似于Rasa NLU pipeline中的EmbeddingIntentClassifier预测意图分类的方式。

当需要预测下一个系统动作时,所有可能的系统动作根据它们的相似度进行排序,并选择相似度最高的动作。

这个过程在每个对话回合中重复,如下所示:


效果:

在极低数据情况下,REDP 优于 TED Policy。应该注意的是,REDP 严重依赖其复制机制来预测非合作题外话后先前提出的问题。然而,TED Policy既简单又通用,在不依赖于重复问题等对话属性的情况下实现了类似的性能。此外,由于transformer架构,TED 政策训练比 REDP 更快,并且需要更少的训练周期来达到相同的精度。

以上是关于RASATED Policy:Dialogue Transformers的主要内容,如果未能解决你的问题,请参考以下文章

RASATED Policy:Dialogue Transformers

英文 - 电话中的Dialogue

dialogue?

强化学习笔记:policy learning

dialogue怎么读?啥意思?

3-华为防火墙:公共地址集安全策略匹配顺序