PageRank
Posted 懵懂的菜鸟
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PageRank相关的知识,希望对你有一定的参考价值。
PageRank
1 概述
PageRank算法在1998年4月举行的第七届国际万维网大会上由Sergey Brin和Larry Page提出。PageRank是通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。
随着国内外学者的深入研究,PageRank算法被广泛应用于其他方面,例如学术论文的重要性排名,学术论文的作者的重要性排排序(某位作者引用了其他作者的文献,则该作者认为其他作者是重要的),网络爬虫(利于PR值,决定某个URL,所需要排序的网页数量和深度;重要性高的网页抓取的网页数量相对多一些,反正则少一点),关键词与句子的抽取,随后又出现了基于PageRank的Twitter用户的影响力排名,基于PageRank的微博用户影响力算法的研究,和一些其他在PageRank算法基础上进行改进的研究。由此可见PageRank在影响力排名方面的研究也十分热门。
2 核心思想
PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的思想建立的。其包括:链入链接数(即受欢迎的指标)、链入链接是否来自推荐度高的页面、链入链接源页面的链接数。
如图1所示,假设一个只有4个页面组成的集合:A,B,C,D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。
但是,如图1所示,B页面也连接到C页面,并且D页面有有连接到A页面。一个页面的投票权重总和为1。则根据图1,A页面的PR值为:
把互联网上的各个网页之间的链接关系看成一个有向图。建设浏览者浏览的下一个网页链接来自于当前网页。建立一个简化模型:对于任意网页Pi,它的PageRank值可表示为如下:
d:阻尼因子,通常设为0.85,d即按照超链接进行浏览的概率;
可以最终求出PR值,再归一化,便得到所有页面的PR值。例如:通过计算得到A的状态转移矩阵如下:
(1)与查询无关的静态算法,所有网页的PageRank值都是离线计算好的;
(2)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题相关性降低;
[1] 孙红,左腾. 基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究,2018,04:
[2] https://wenku.baidu.com/view/a58b3845b0717fd5370cdc5f.html
以上是关于PageRank的主要内容,如果未能解决你的问题,请参考以下文章