统计文本挖掘

Posted 2021-04-16 我们可不low

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计文本挖掘相关的知识，希望对你有一定的参考价值。

致歉：由于上一周小编们因事停更一周，给大家带来不便尽请谅解！

文本挖掘——jiebaR包

文本挖掘

在自然语言处理（NLP）技术发达的今天，小编就给大家讲一讲文本挖掘，文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。

词云

“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使浏览网页者只要一眼扫过文本就可以领略文本的主旨

实战

《“健康中国2030”规划纲要》是卫生领域一个重要的政府文件。挖掘《“健康中国2030”规划纲要》主要思想可以更好地了解中国卫生领域的发展趋势。下面就有小编我利用文本挖掘技术分析此份报告。

1、读取文本文件

将健康2030转化为txt格式文件，利用R3.4.3软件读取txt格式文件。

语句：

scan("C://Users//hp//Desktop//health2030.txt",sep=" ",what="")->health

根据文件路径，导入txt文件

2、下载安装包

本实例中将应用jiabaR包和wordcloud2包。

语句：

install.packages（）

library(jiabaR)

library(wordcloud2)

下载并安装jiabaR包和wordcloud2包

3、导入分词函数

本实例中将应用两个重要的函数，worker()函数和segment()函数。

语句：

engine<-worker()

worker(stop_word="C://Users//hp//Desktop//stop.txt")->engine_s

segment(health,engine_s)->health1

删除停用词，对报告进行分词处理

<< 滑动查看下一张图片 >>

4、挑选关键词

语句：

health1[nchar(health1)>1 & nchar(health1)<7]->health2

wordFreq=sort(table(health2),decreasing=T)[1:50]

挑选词条长度在2~6个字之间，出现频率前50个，降序排列

4、制作词云

语句：

wordcloud2(wordFreq,size=1,shape="star")

制作星型词云

重点函数

worker()函数原型：

worker(type = "mix", dict = DICTPATH, user = USERPATH, stop_word = STOPPATH, topn = 5,encoding = "UTF-8")

type

分词引擎类型，包括mix、keyword、tag等

dict

词库路径

user

用户自定义的词库

stop-word

停用词路径

topn

关键词个数

温馨提示

1.R软件和Python都可以进行文本挖掘，R语言中tm包和Rwordseg包也可以进行文本挖掘。

2.在文本挖掘过程中利用worker函数中通过user参数添加词库

3.词库第一行一定要空着

4.自行添加词库，建议使用notepad++编辑，编码设置为UTF-8

5.如需要添加搜狗细胞词库，建议安装cidian包

撰稿：小怪兽

以上是关于统计文本挖掘的主要内容，如果未能解决你的问题，请参考以下文章