Dialogue Transformers

Posted 2023-03-03 chansonzhang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Dialogue Transformers相关的知识，希望对你有一定的参考价值。

Abstract

本文介绍了一种基于 Transformer 架构的 对话策略，其中自注意力机制被应用于对话轮次（dialogue turns）的序列上。近期的一些工作使用层次化的循环神经网络（hierarchical recurrent neural networks）在对话上下文中对多个话语（utterances）进行编码，但是我们认为纯粹的自注意力机制是更合适的。默认情况下 RNN 假设对话序列中的每一项都与整个序列的编码相关，然而当说话者在多个话题之间切换时，一个对话往往包含多个重叠的话语片段。Transformer 在编码当前对话状态时可以挑选要包含的轮次，因此天然适合 选择性地忽略或关注对话历史。本文还比较了 Transformer Embedding Dialogue (TED) 策略和 LSTM 以及 REDP 的表现，后两者是专门被设计用来克服 RNN 的缺陷的。

INTRODUCTION

本文的目的是证明 Transformer 相比于通常使用的循环网络模型更适合于建模多轮对话。提出的 TED 架构可以被看做在各种对话任务中构建 SOTA 架构的候选组件。并非对话中的每个话语都必须是对另一方最近话语的回应。Groz and Sidner

以上是关于Dialogue Transformers的主要内容，如果未能解决你的问题，请参考以下文章

RASATED Policy：Dialogue Transformers

Rasa: OpenSource Language Understanding and Dialogue Management 翻译

基于Transformers入门自然语言处理！

huggingface/transformers数据预处理