pagerank

Posted treehesoft

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pagerank相关的知识,希望对你有一定的参考价值。

pagerank示例:

 

 

技术分享图片

公式说明: 

S(Vi) :Vi的PR值

Vi   :Vi页面

d    :一个阻尼系数,(其实我也不太明白),一个作用就是避免起点页面的PR为零。统计结果表明,设置成0.85就行。(大约100多次迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时,需要的迭代次数会陡然增加很多,且排序不稳定)

Out(Vj) :表示从页面(Vj)连接到其他页面的个数

j ∈ In(Vi):表示属于链接到页面Vi的页面。

归纳:

1.采用投票的思想,

2.一个页面会链接到N个页面,那么这个页面链接到其中目标页面的PR值,就是N分之一,这就是入链页面的PR值

3.把所有入链页面的PR值相加,就得到了总的PR值

4.最后经过阻尼系数的处理,就得到了最终页面的PR值。

 

举个例子:

 

技术分享图片

按照公式:

1.  page1的PR值,因为是首个页面,没有入链页面,所以PR值就是 S(P1) =(1-d) + d * 0 = 1-0.85=0.15

2.  page2,page3与page1页面相同,所以都是0.15

3.  计算page4的PR值,page1,page3都是page4的入链,所以要计算它们的平均PR值,page1的出链是page4,page5,所以page1的PR值就是0.15/2=0.0525;page3的出链也是2个,所以PR值就是0.15/2=0.0525;

4. S(P4) =  (1-d) + d * (S(P1) + S(P2))

              = 0.15 + 0.85 * (0.0525 + 0.0525)

              = 0.2775

 

以上是关于pagerank的主要内容,如果未能解决你的问题,请参考以下文章

关键词抽取:pagerank,textrank