长文本摘要模型的位置编码

Posted 2023-04-23 ︶ㄣ演戲ㄣ

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了长文本摘要模型的位置编码相关的知识，希望对你有一定的参考价值。

Longformer

Roberta使用绝对位置编码，最大512.为了能够适应更长的文本，Longformer添加到4096。为了利用Roberta的预训练后的权重，多次复制512位置编码。

做了实验，对比随机初始化位置编码和复制位置编码，显示出复制位置编码的重要性。

扩展BART的1K tokens到16K tokens。初始化位置编码矩阵通过复制BART的1K位置编码16次。

除此之外，还做了相对位置编码的实验

BART_LS

使用 Transformer 进行文本摘要

【中文标题】使用 Transformer 进行文本摘要【英文标题】：Using Transformer for Text-Summarization 【发布时间】：2021-01-02 09:16:35 【问题描述】：

我正在为 文本摘要 使用拥抱脸转换器模型。目前我正在测试不同的模型，例如 T5 和 Pegasus。现在，这些模型被训练用于将大文本总结成非常短的，比如最多两个句子。现在我有任务，我想要摘要，大约是文本大小的一半，因此生成的摘要对于我的目的来说太小了。

我现在的问题是，是否有办法告诉模型之前有另一个句子？有点类似于有状态 RNN 中的逻辑（尽管我知道它们的工作方式完全不同）。如果是的话，我可以总结句子的小窗口，总是包含内容之前的信息。

这只是我的想法吗？我不敢相信只有我一个人想要创建更短的摘要，而不仅仅是一两句话长的摘要。

谢谢

【问题讨论】：

【参考方案1】：

为什么不迁移学习？根据您的特定文本和摘要对他们进行培训。

我在特定的有限文本上训练了 T5 超过 5 个 epoch，并获得了非常好的结果。我根据我的需要采用了这里的代码https://github.com/patil-suraj/exploring-T5/blob/master/t5_fine_tuning.ipynb

如果您有具体的培训问题，请告诉我。

【讨论】：

但是你可以在超过原始序列长度限制的情况下迁移学习吗？是的，你可以。如果 512 不适合您可以根据谷歌文档进行更改：“您还可以使用不同的批量大小进行微调。我们根据批次中的令牌总数设置批量大小。默认情况下，批次使用序列长度为 512。”来源：github.com/google-research/text-to-text-transfer-transformer/… 那谢谢，我去看看你的nb！

以上是关于长文本摘要模型的位置编码的主要内容，如果未能解决你的问题，请参考以下文章

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

17.2融合关键词的文本增强

使用文本摘要 API 解析 JSON 响应，响应中的编码错误

文本分类《融合注意力和剪裁机制的通用文本分类模型》

使用 T5 预训练模型的抽象文本摘要