Dialogue Transformers

Posted chansonzhang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Dialogue Transformers相关的知识,希望对你有一定的参考价值。

Abstract

本文介绍了一种基于 Transformer 架构的 对话策略,其中自注意力机制被应用于对话轮次(dialogue turns)的序列上。近期的一些工作使用层次化的循环神经网络(hierarchical recurrent neural networks)在对话上下文中对多个话语(utterances)进行编码,但是我们认为纯粹的自注意力机制是更合适的。默认情况下 RNN 假设对话序列中的每一项都与整个序列的编码相关,然而当说话者在多个话题之间切换时,一个对话往往包含多个重叠的话语片段。Transformer 在编码当前对话状态时可以挑选要包含的轮次,因此天然适合 选择性地忽略或关注对话历史。本文还比较了 Transformer Embedding Dialogue (TED) 策略和 LSTM 以及 REDP 的表现,后两者是专门被设计用来克服 RNN 的缺陷的。

INTRODUCTION

本文的目的是证明 Transformer 相比于通常使用的循环网络模型更适合于建模多轮对话。提出的 TED 架构可以被看做在各种对话任务中构建 SOTA 架构的候选组件。并非对话中的每个话语都必须是对另一方最近话语的回应。Groz and Sidner

以上是关于Dialogue Transformers的主要内容,如果未能解决你的问题,请参考以下文章

RASATED Policy:Dialogue Transformers

RASATED Policy:Dialogue Transformers

Rasa: OpenSource Language Understanding and Dialogue Management 翻译

基于Transformers入门自然语言处理!

huggingface/transformers数据预处理

huggingface/transformers数据预处理