第二十篇：Summarisation摘要

Posted 2021-07-08 flying_1314

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第二十篇：Summarisation摘要相关的知识，希望对你有一定的参考价值。

摘要

• 从文本中提取最重要的信息以生成缩短或删节的版本

• 例子
‣ 文档大纲
‣ 科学文章摘要
‣ 新闻标题
‣ 搜索结果片段

总结什么？

• 单一文档摘要
‣ 输入：单个文档
‣ 输出：表征内容的摘要

• 多文档摘要
‣ 输入：多个文档
‣ 输出：捕获所有文档要点的摘要
‣ 例如从多个来源或角度总结新闻事件

• 提取总结
‣ 通过从文档中选择具有代表性的句子进行总结

• 抽象总结
‣ 用自己的话概括内容
‣ 摘要通常是对原始内容的转述

总结的目标？

• 通用摘要
‣ 摘要提供文档中的重要信息

• 以查询为中心的摘要
‣ 摘要响应用户查询
‣ 类似于问答
‣ 但是答案要长得多（不仅仅是短语）

大纲

• 提取总结
‣ 单文档
‣ 多文档
• 抽象总结
‣ 单文档（深度学习模型！）
• 评估

提取总结-单文档

摘要系统

• 内容选择：选择要从文档中提取的句子
• 信息排序：决定如何对提取的句子进行排序

• 句子实现：清理以确保组合句子流畅

• 我们将专注于内容选择
• 对于单个文档摘要，不需要信息排序
‣ 以原始顺序呈现提取的句子
• 如果以点点形式呈现，也不需要实现句子

内容选择

• 使用真实提取句子的数据不多
• 主要是无监督方法
• 目标：找出重要或突出的句子

方法一：TF-IDF

• 文档中的常用词 → 突出
• 但是一些通用词非常频繁但没有提供信息
‣ 虚词
‣ 停用词

• 通过其逆文档频率对文档中的每个单词进行加权：

方法 2：对数似然比

• 直觉：如果一个词在输入语料库中的概率与背景语料库非常不同，则该词是显着的

• $\\lambda(w)$ 是之间的比率：

‣ 假设 P(w|I) = P(w|B) =p， I 指的是输入语料，B指的是背景语料

P(w|I):

P(w|B):

‣ 假设 P(w|I) = $p_{I}$ ，P(w|B) = $p_{B}$ ， I 指的是输入语料，B指的是背景语料

P(w|I):

P(w|B):

$p_{I}$ :

$p_{B}$ :

一个句子的显着性？

只考虑 S 中的非停用词

方法 3：句子中心性

• 对句子进行排序的替代方法
• 测量句子之间的距离，并选择与其他句子更接近的句子
• 使用 tf-idf BOW 表示句子
• 使用余弦相似度测量距离

最终提取摘要

• 使用排名靠前的句子作为提取摘要
‣ 显着性（tf-idf 或对数似然比）
‣ 中心性

方法四：RST解析

• 修辞结构理论（第十一篇文章，话语）：解释从句是如何连接的
• 定义核心（主要从句）和卫星（支持从句）之间的关系类型

• 核心比卫星更重要
• 一个句子作为更多句子的核心=更显着

提取总结-多文档

摘要系统

• 类似于单文档提取摘要系统
• 挑战：
‣ 信息冗余
‣ 句子排序

内容选择

• 我们可以使用相同的无监督内容选择方法（tf-idf、对数似然比、中心性）来选择显着句子
• 但忽略多余的句子

最大边际相关性

• 反复选择要添加到摘要的最佳句子
• 要添加的句子必须新颖
• 如果候选句子与提取的句子相似，则对其进行惩罚：

• 添加所需数量的句子时停止

信息排序

• 时间顺序：
‣ 按文档日期排序

• 连贯性：
‣ 以相邻句子相似的方式排序
‣ 基于实体组织方式的排序（中心理论，第十一篇文章）

句子实现

• 确保实体被连贯地引用
‣ 首次提及时的全名
‣ 后续提及的姓氏
• 应用共指方法来首先提取名称
• 编写规则以进行清理

抽象总结-单文档（深度学习模型！）

• 释义
• 一项非常艰巨的任务
• 我们可以训练一个神经网络来生成摘要吗？

Encoder-Decoder?

• 如果我们对待：
‣ 源句 = “文档”
‣ 目标句 = “摘要”

数据

• 新闻头条
• 文档：文章的第一句
• 摘要：新闻标题/标题
• 从技术上讲更像是“标题生成任务”

改进

• 注意力机制
• 更丰富的单词特征：POS 标签、NER 标签、tf-idf
• 分层编码器
‣ 一个用于单词的 LSTM
‣ 另一个用于句子的 LSTM

复制机制

• 生成重现文档中详细信息的摘要
• 可以通过将它们复制到文档中来在摘要中生成词汇外的单词
‣ 例如 smergle = 词汇量之外
‣ p(smergle) = 注意力概率 + 生成概率 = 注意力概率

评估

ROUGE(Recall Oriented Understudy for Gisting Evaluation):

• 与 BLEU 类似，评估生成的摘要和参考/人工摘要之间的单词重叠程度
• 但以找回为导向
• 度量在 N-gram 中分别重叠（例如，从 1 到 3）
• ROUGE-2：从生成的摘要中的参考计算二元组的百分比

ROUGE-2: 例子

最后

• 研究重点是单文档抽象摘要
‣ 主要是新闻数据
• 但要摘要的数据类型很多：
‣ 图片、视频
‣ 图表
‣ 结构化数据：例如病历、表格
• 多文档抽象摘要

OK,今天的内容就到这里了，辛苦大家观看！有问题随时评论交流哈！

以上是关于第二十篇：Summarisation摘要的主要内容，如果未能解决你的问题，请参考以下文章

第二十篇：Summarisation摘要

摘要

总结什么？

总结的目标？

大纲

提取总结-单文档

摘要系统

内容选择

方法一：TF-IDF

方法 2：对数似然比

一个句子的显着性？

方法 3：句子中心性

方法四：RST解析

提取总结-多文档

摘要系统

内容选择

最大边际相关性

信息排序

句子实现

抽象总结-单文档（深度学习模型！）

Encoder-Decoder?

数据

更多摘要数据

改进

复制机制

最新发展

评估

ROUGE(Recall Oriented Understudy for Gisting Evaluation):

ROUGE-2: 例子

最后