TextRank 文本摘要

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TextRank 文本摘要相关的知识,希望对你有一定的参考价值。

参考技术A TextRank的打分思想依然是从PageRank的迭代思想衍生过来的,PageRank主要用于对在线搜索结果中的网页进行排序。

PageRank如下公式所示:

等式左边表示一个句子的权重(WS是weight_sum的缩写),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再提取窗口。分子wji表示两个句子的相似程度,相似程度wji的计算,推荐使用BM25算法。分母又是一个weight_sum,而WS(Vj)代表上次迭代j的权重。整个公式是一个迭代的过程。

假设我们有4个网页——w1,w2,w3,w4。这些页面包含指向彼此的链接。有些页面可能没有链接,这些页面被称为悬空页面。

为了对这些页面进行排名,我们必须计算一个称为PageRank的分数。这个分数是用户访问该页面的概率。

为了获得用户从一个页面跳转到另一个页面的概率,我们将创建一个正方形矩阵M,它有n行和n列,其中n是网页的数量。

矩阵中得每个元素表示从一个页面链接进另一个页面的可能性。比如,如下高亮的方格包含的是从w1跳转到w2的概率。

如下是概率初始化的步骤:

因此在本例中,矩阵M初始化后如下:

最后,这个矩阵中的值将以迭代的方式更新,以获得网页排名。

TextRank与PageRank的相似之处:

以上是关于TextRank 文本摘要的主要内容,如果未能解决你的问题,请参考以下文章

NLP | TextRank文章摘要提取算法流程

文本抽取式摘要

TextRank算法是什么?基于TextRank算法进行关键词抽取

我想开发一个总结用户输入文本的 Android 应用程序(可能是一篇新闻文章)

基于TextRank提取关键词关键短语摘要

SnowNLP 使用自定义语料进行模型训练