学习TextRank算法
Posted liuguangshou123
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习TextRank算法相关的知识,希望对你有一定的参考价值。
TextRank是啥:
一种用于文本的基于图的排序算法。
优点:
不需要学习训练。
模型原理:
TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。
点Vi的得分定义为:
d为阻尼系数,取值范围为[0,1],代表从图中的一点指向其他任意点的概率。
计算开始时,需要给图中的点赋初始得分。然后不断迭代计算直到收敛。
利用TextRank实现关键词的提取原理。
1.将给定的文本进行分割
2.将句子进行分词,然后作词性标注,过滤停用词,保留指定词性的的词。
3.利用候选关键词,建立候选关键词图,构造两点之间的边。
4.迭代传播各节点权重,最终收敛。
5.对节点权重进行倒序排序,得到最重要的T个单词。
6.回到原始文本进行标记,如果某些单词构成相邻词组,则组成多词关键词。
参考资料
1.https://www.cnblogs.com/chenbjin/p/4600538.html
以上是关于学习TextRank算法的主要内容,如果未能解决你的问题,请参考以下文章