用Py做文本分析5:关键词提取

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用Py做文本分析5:关键词提取相关的知识,希望对你有一定的参考价值。

参考技术A

关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。

针对一篇语段,在不加人工干预的情况下提取出其关键词

无监督学习——基于词频
思路1:按照词频高低进行提取

思路2:按照词条在文档中的重要性进行提取

IF-IDF是信息检索中最常用的一种文本关键信息表示法,其基本的思想是如果某个词在一篇文档中出现的频率高,并且在语料库中其他文档中很少出现,则认为这个词具有很好的类别区分能力。

TF:Term Frequency,衡量一个term在文档中出现得有多频繁。平均而言出现越频繁的词,其重要性可能就越高。考虑到文章长度的差异,需要对词频做标准化:

IDF:Inverse Document Frequency,逆文档概率,用于模拟在该语料的实际使用环境中,目标term的重要性。

TF-IDF:TF*IDF

优点:

(1)jieba

(2)sklearn

(3)gensim

前面介绍的TF-IDF属于无监督中基于词频的算法,TextRank算法是基于图形的算法。

TextRank算法的思想来源于PageRank算法:

和基于词频的算法相比,TextRank进一步考虑了文档内词条间的语义关系。

参考资料:
Python数据分析--玩转文本挖掘

使用 pyqt5 绘制题库助手

近期有个想法,做一个markdown文本容器,将固定结构的内容进行预览展示。大致原型图如下

UI 共分为两部分,左侧一个树形导航、右侧一个 markdown 文本容器。
文本容器内使用关键词抽取算法提取关键词列表,并进行追加展示。

1 画 GUI

使用 QT designer拖拽勾画即可

2 ui.py

将第一步绘制的 *.ui 文件,生成 ui.py, 方便后续代码引用。

pip install pyqt5

转换命令

./venv/bin/pyuic5 zhongte.ui -o ui.py

3 绘制应用

废话不多说,直接贴代码

#coding: utf8

import os

以上是关于用Py做文本分析5:关键词提取的主要内容,如果未能解决你的问题,请参考以下文章

awk怎么提取某一关键词后的内容

关键词提取和基于关键词的文本分类

如何利用python提取文本内标题下的内容?

评价管理正确姿势:提取关键词+情感正负面+意见分析一步到位

从短文本中提取和排名关键字

使用 pyqt5 绘制题库助手