为啥 adajcency 矩阵的特征值实际上是 Textrank 中的句子分数
Posted
技术标签:
【中文标题】为啥 adajcency 矩阵的特征值实际上是 Textrank 中的句子分数【英文标题】:Why Eigen values of adajcency matrix are actually the sentence scores in Textrank为什么 adajcency 矩阵的特征值实际上是 Textrank 中的句子分数 【发布时间】:2017-01-10 02:17:34 【问题描述】:这是 TextRank 的路径:
-
要汇总的文档以 tf-idf 矩阵表示
(tf-idf 矩阵)*(tf-idf 矩阵).Transpose = 某个图的邻接矩阵,其顶点为
实际上是上面文件的句子
页面排名应用于此图 -> 返回每个句子的 PR 值
现在,这个 PR 值实际上是该邻接矩阵的特征值 这背后的物理意义或直觉是什么。?
为什么特征值实际上是等级?
这是页面排名的链接: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm
下面是上面页面的摘录:PageRank 或 PR(A) 可以使用简单的迭代算法计算,并且对应于网络的归一化链接矩阵的主特征向量。
TextRank 的链接: https://joshbohde.com/blog/document-summarization
【问题讨论】:
【参考方案1】:首先,您的问题有点错误。特征值是不是分数。相反,平稳特征向量的条目是分数。
Textrank 在graphical approach to words 上工作。它有许多变体,但它们具有以下共同步骤:
创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转移概率。
找到与图关联的stochastic matrix,并根据每个实体的平稳分布对其进行评分。
在这种情况下,图表的构建如下。首先,建立一个矩阵,其中行是句子,列是单词。矩阵的条目由 TF-IDF 指定。为了找到句子之间的相似性,归一化矩阵乘以其变换。这是因为,对于每两个句子和一个单词,根据每个句子中单词的 TF-IDF 的乘积,句子之间存在相似度,我们需要对所有单词进行求和。稍微想一想,对乘积求和就是转置矩阵乘法的作用。
所以现在我们有一个随机矩阵 P,它可以解释为从句子 i 到句子 j 的转换概率。分数是平稳分布x,这意味着
P x = x = 1 x.
这意味着x是与特征值1相关的特征向量。通过Perron-Frobenius Theorem,这个特征向量在一些温和的条件下存在,1是最大的特征值。最后一部分基本上是 Pagerank。
【讨论】:
谢谢 .... 所以,我们使用上面的方程得到了一些特征向量...但问题是:找到一些特征向量与 PageRank 算法有什么关系..?这种关系的直觉/物理意义是什么......?你能详细说明一下吗 最后一部分是 Pagerank,基本上:它通过求解随机矩阵P的平稳特征向量来找到重要性。 Text rank 基本上是借用了这个思路用于句子排序的应用,具体说明了如何针对这种情况构建P。 P 矩阵是如何随机的(tf-idf 值可以是任何值,可能不会加到 1)? @mach 我在答案中解释说:它是 normalized TF-IDF 矩阵本身的乘积,具有我概述的基本原理。 @mach 是的,基本上就是这样。一种视觉方式(我不确定这是否更有帮助)是考虑一个图,其中边缘指定转换概率(即 P)。现在您需要询问适合这些边缘概率的节点概率是多少。马尔可夫链并不总是最直观的东西。以上是关于为啥 adajcency 矩阵的特征值实际上是 Textrank 中的句子分数的主要内容,如果未能解决你的问题,请参考以下文章