第二十篇:Summarisation摘要

Posted flying_1314

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第二十篇:Summarisation摘要相关的知识,希望对你有一定的参考价值。

目录

摘要

总结什么?

总结的目标?

大纲

提取总结-单文档

摘要系统

内容选择

方法一:TF-IDF

方法 2:对数似然比

一个句子的显着性?

方法 3:句子中心性

方法四:RST解析

提取总结-多文档

摘要系统

内容选择

最大边际相关性

信息排序

句子实现

抽象总结-单文档(深度学习模型!)

Encoder-Decoder?

数据

更多摘要数据

改进

复制机制

最新发展

评估

ROUGE(Recall Oriented Understudy for Gisting Evaluation):

ROUGE-2: 例子

最后


摘要

• 从文本中提取最重要的信息以生成缩短或删节的版本

• 例子
    ‣ 文档大纲
    ‣ 科学文章摘要
    ‣ 新闻标题
    ‣ 搜索结果片段

总结什么?

• 单一文档摘要
    ‣ 输入:单个文档
    ‣ 输出:表征内容的摘要

• 多文档摘要
    ‣ 输入:多个文档
    ‣ 输出:捕获所有文档要点的摘要
    ‣ 例如 从多个来源或角度总结新闻事件

• 提取总结
    ‣ 通过从文档中选择具有代表性的句子进行总结

• 抽象总结
    ‣ 用自己的话概括内容
    ‣ 摘要通常是对原始内容的转述

总结的目标?

• 通用摘要
    ‣ 摘要提供文档中的重要信息

• 以查询为中心的摘要
    ‣ 摘要响应用户查询
    ‣ 类似于问答
    ‣ 但是答案要长得多(不仅仅是短语)

大纲

• 提取总结
    ‣ 单文档
    ‣ 多文档
• 抽象总结
    ‣ 单文档(深度学习模型!)
• 评估

 

提取总结-单文档

摘要系统

• 内容选择:选择要从文档中提取的句子
• 信息排序:决定如何对提取的句子进行排序

• 句子实现:清理以确保组合句子流畅

• 我们将专注于内容选择
• 对于单个文档摘要,不需要信息排序
     ‣ 以原始顺序呈现提取的句子
• 如果以点点形式呈现,也不需要实现句子

内容选择

• 使用真实提取句子的数据不多
• 主要是无监督方法
• 目标:找出重要或突出的句子

方法一:TF-IDF

• 文档中的常用词 → 突出
• 但是一些通用词非常频繁但没有提供信息
    ‣ 虚词
    ‣ 停用词

• 通过其逆文档频率对文档中的每个单词进行加权:

方法 2:对数似然比

• 直觉:如果一个词在输入语料库中的概率与背景语料库非常不同,则该词是显着的

\\lambda(w)是之间的比率:

    ‣ 假设 P(w|I) = P(w|B) =p, I 指的是输入语料,B指的是背景语料

    P(w|I):

    P(w|B):

    p:

    ‣ 假设 P(w|I) =p_{I}  ,P(w|B) =p_{B}, I 指的是输入语料,B指的是背景语料

    P(w|I):

    P(w|B):

    p_{I}:

    p_{B}:

一个句子的显着性?

只考虑 S 中的非停用词

方法 3:句子中心性

• 对句子进行排序的替代方法
• 测量句子之间的距离,并选择与其他句子更接近的句子
• 使用 tf-idf BOW 表示句子
• 使用余弦相似度测量距离

最终提取摘要

• 使用排名靠前的句子作为提取摘要
    ‣ 显着性(tf-idf 或对数似然比)
    ‣ 中心性

方法四:RST解析

• 修辞结构理论(第十一篇文章,话语):解释从句是如何连接的
• 定义核心(主要从句)和卫星(支持从句)之间的关系类型

• 核心比卫星更重要
• 一个句子作为更多句子的核心=更显着

提取总结-多文档

摘要系统

• 类似于单文档提取摘要系统
• 挑战:
    ‣ 信息冗余
    ‣ 句子排序

内容选择

• 我们可以使用相同的无监督内容选择方法(tf-idf、对数似然比、中心性)来选择显着句子
• 但忽略多余的句子

最大边际相关性

• 反复选择要添加到摘要的最佳句子
• 要添加的句子必须新颖
• 如果候选句子与提取的句子相似,则对其进行惩罚:

• 添加所需数量的句子时停止

信息排序

• 时间顺序:
    ‣ 按文档日期排序

• 连贯性:
    ‣ 以相邻句子相似的方式排序
    ‣ 基于实体组织方式的排序(中心理论,第十一篇文章)

句子实现

• 确保实体被连贯地引用
    ‣ 首次提及时的全名
    ‣ 后续提及的姓氏
• 应用共指方法来首先提取名称
• 编写规则以进行清理

抽象总结-单文档(深度学习模型!)

• 释义
• 一项非常艰巨的任务
• 我们可以训练一个神经网络来生成摘要吗?

Encoder-Decoder?

• 如果我们对待:
    ‣ 源句 = “文档”
    ‣ 目标句 = “摘要”

数据

• 新闻头条
• 文档:文章的第一句
• 摘要:新闻标题/标题
• 从技术上讲更像是“标题生成任务”

更多摘要数据

• 但标题生成并不令人兴奋……
• 其他汇总数据:
    ‣ CNN/Dailymail:30 万篇文章,以项目符号汇总
    ‣ 新闻室:130 万篇文章,作者总结
                  - 各种各样的; 38种主要出版物
    ‣ XSum:200K BBC 文章
                  - 摘要比其他数据集更抽象 

改进

• 注意力机制
• 更丰富的单词特征:POS 标签、NER 标签、tf-idf
• 分层编码器
    ‣ 一个用于单词的 LSTM
    ‣ 另一个用于句子的 LSTM

复制机制

• 生成重现文档中详细信息的摘要
• 可以通过将它们复制到文档中来在摘要中生成词汇外的单词
    ‣ 例如 smergle = 词汇量之外
    ‣ p(smergle) = 注意力概率 + 生成概率 = 注意力概率

最新发展

• 最先进的模型使用transformers而不是 RNN
• 大量的预训练
• 注意:BERT 不直接适用,因为我们需要一个单向解码器(BERT 只是一个编码器)

评估

ROUGE(Recall Oriented Understudy for Gisting Evaluation):

• 与 BLEU 类似,评估生成的摘要和参考/人工摘要之间的单词重叠程度
• 但以找回为导向
• 度量在 N-gram 中分别重叠(例如,从 1 到 3)
• ROUGE-2:从生成的摘要中的参考计算二元组的百分比

ROUGE-2: 例子

最后

• 研究重点是单文档抽象摘要
    ‣ 主要是新闻数据
• 但要摘要的数据类型很多:
    ‣ 图片、视频
    ‣ 图表
    ‣ 结构化数据:例如 病历、表格
• 多文档抽象摘要

OK,今天的内容就到这里了,辛苦大家观看!有问题随时评论交流哈!

 

以上是关于第二十篇:Summarisation摘要的主要内容,如果未能解决你的问题,请参考以下文章

第二十篇:Summarisation摘要

第二十篇:Summarisation摘要

第二十篇 ResNet——模型讲解

第二十篇-如何写配置文件

flask第二十篇——模板

第二十篇 sys模块