自动文档摘要评价方法

Posted selfcs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自动文档摘要评价方法相关的知识,希望对你有一定的参考价值。

自动文档摘要评价方法大致分为两类:

(1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。

(2)外部评价方法(Extrinsic Methods):不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等, 能够提高应用性能的摘要被认为是质量好的摘要。

一、Edmundson:


Edmundson评价方法比较简单,可以客观评估,就是通过比较机械文摘(自动文摘系统得到的文摘)与目标文摘的句子重合率(coselection rate)的高低来对系统摘要进行评价。也可以主观评估,就是由专家比较机械文摘与目标文摘所含的信息,然后给机械文摘一个等级评分。 类如等级可以分为:完全不相似,基本相似,很相似,完全相似等。

Edmundson比较的基本单位是句子,通过句子级标号分隔开的文本单元,句子级标号包括“。”“:”“;”“!”“?”,并且只允许专家从原文中抽取句子,而不允许专家根据自己对原文的理解重新生成句子,专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出。

计算公式为:

[ ext{重合率p}= ext{匹配句子数}/ ext{专家文摘句子数} imes ]

每一个机械文摘的重合率为按三个专家给出的 文摘得到的重合率的平均值:

[ ext{平均重合率}=sum_{i=1}^{n}P_i/n ]

即对所有专家的重合率取一个均值,Pi为相对于第i个专家的重合率,n为专家的数目。

二、ROUGE


ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法,现被广泛应用于DUC1(Document Understanding Conference)的摘要评测任务中。

ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成,包括ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,以及ROUGE-Skipped-N-gram等,1、2、3、4分别代表基于1元词到4元词以有跳跃的N-gram模型。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的N元语法ROUGE方法。

计算公式:

[mathrm{ROUGE}-mathrm{N}=frac{sum_{Sin{mathrm{Refquad Summaries}}}sum_{n-gramin S}Count_{match}(n-gram)}{sum_{Sin{mathrm{Refquad Summaries}}}sum_{n-gramin S}Count(n-gram)} ]

其中,n-gram表示n元词,{Ref Summaries}表示参考摘要,即事先获得的标准摘要,Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数,Count(n-gram)则表示参考摘要中出现的n- gram个数。

不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。

参考


  1. DUC(Document Understanding Conference)评测是由NIST(National Institute of Standards and Technology)从2001年开始举办的摘要评估领域比较有名的一个国际评测。从2008年开始,DUC逐渐转移到TAC(Text Analysis Conference),依然由NIST举办,感兴趣的可以参考下面两个官方链接:
  2. https://duc.nist.gov/
  3. http://www.nist.gov/tac/

以上是关于自动文档摘要评价方法的主要内容,如果未能解决你的问题,请参考以下文章

机器翻译自动评价之BLEU详解-BLEU: a Method for Automatic Evaluation of Machine Translation

机器翻译评价指标

论文泛读109使用自然语言处理自动检测仇恨言论的系统评价

机器翻译与自动文摘评价指标 BLEU 和 ROUGE

搜索系统7:索引查询方法与评价方法

05模型建立与评价