使用 Transformer 进行文本摘要

Posted

技术标签:

【中文标题】使用 Transformer 进行文本摘要【英文标题】:Using Transformer for Text-Summarization 【发布时间】:2021-01-02 09:16:35 【问题描述】:

我正在为 文本摘要 使用拥抱脸转换器模型。 目前我正在测试不同的模型,例如 T5Pegasus。 现在,这些模型被训练用于将大文本总结成非常短的,比如最多两个句子。现在我有任务,我想要摘要,大约是文本大小的一半,因此生成的摘要对于我的目的来说太小了。

我现在的问题是,是否有办法告诉模型之前有另一个句子? 有点类似于有状态 RNN 中的逻辑(尽管我知道它们的工作方式完全不同)。 如果是的话,我可以总结句子的小窗口,总是包含内容之前的信息。

这只是我的想法吗?我不敢相信只有我一个人想要创建更短的摘要,而不仅仅是一两句话长的摘要。

谢谢

【问题讨论】:

【参考方案1】:

为什么不迁移学习?根据您的特定文本和摘要对他们进行培训。

我在特定的有限文本上训练了 T5 超过 5 个 epoch,并获得了非常好的结果。我根据我的需要采用了这里的代码https://github.com/patil-suraj/exploring-T5/blob/master/t5_fine_tuning.ipynb

如果您有具体的培训问题,请告诉我。

【讨论】:

但是你可以在超过原始序列长度限制的情况下迁移学习吗? 是的,你可以。如果 512 不适合您可以根据谷歌文档进行更改:“您还可以使用不同的批量大小进行微调。我们根据批次中的令牌总数设置批量大小。默认情况下,批次使用序列长度为 512。”来源:github.com/google-research/text-to-text-transfer-transformer/… 那谢谢,我去看看你的nb!

以上是关于使用 Transformer 进行文本摘要的主要内容,如果未能解决你的问题,请参考以下文章

文本摘要简述

论文泛读136使用图形进行文本摘要的提取方法

结合Transformer模型与深度神经网络的数据到文本生成方法

自然语言处理基于句子嵌入的文本摘要算法实现

在 python 中应用预训练的 facebook/bart-large-cnn 进行文本摘要

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型