统计文本挖掘

Posted 我们可不low

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计文本挖掘相关的知识,希望对你有一定的参考价值。

【统计】文本挖掘 【统计】文本挖掘
【统计】文本挖掘
【统计】文本挖掘

致歉:由于上一周小编们因事停更一周,给大家带来不便尽请谅解!


【统计】文本挖掘

文本挖掘——jiebaR包

【统计】文本挖掘


文本挖掘

       在自然语言处理(NLP)技术发达的今天,小编就给大家讲一讲文本挖掘,文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

词云

“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨

【统计】文本挖掘

实战

《“健康中国2030”规划纲要》是卫生领域一个重要的政府文件。挖掘《“健康中国2030”规划纲要》主要思想可以更好地了解中国卫生领域的发展趋势。下面就有小编我利用文本挖掘技术分析此份报告。

1、 读取文本文件

将健康2030转化为txt格式文件,利用R3.4.3软件读取txt格式文件。

语句:

scan("C://Users//hp//Desktop//health2030.txt",sep=" ",what="")->health

根据文件路径,导入txt文件

【统计】文本挖掘

2、 下载安装包

本实例中将应用jiabaR包和wordcloud2包。

语句:

install.packages()

library(jiabaR)

library(wordcloud2)

下载并安装jiabaR包和wordcloud2包

【统计】文本挖掘

3、导入分词函数

本实例中将应用两个重要的函数,worker()函数和segment()函数。

语句:

engine<-worker()

worker(stop_word="C://Users//hp//Desktop//stop.txt")->engine_s

segment(health,engine_s)->health1

删除停用词,对报告进行分词处理

【统计】文本挖掘
【统计】文本挖掘
【统计】文本挖掘
【统计】文本挖掘

<<  滑动查看下一张图片  >>

   4、挑选关键词

语句:

health1[nchar(health1)>1 & nchar(health1)<7]->health2

wordFreq=sort(table(health2),decreasing=T)[1:50]

挑选词条长度在2~6个字之间,出现频率前50个,降序排列

【统计】文本挖掘

   4、制作词云

语句:

wordcloud2(wordFreq,size=1,shape="star")

制作星型词云

【统计】文本挖掘

重点函数

worker()函数原型:

worker(type = "mix", dict = DICTPATH, user = USERPATH, stop_word = STOPPATH,  topn = 5,encoding = "UTF-8")

type

分词引擎类型,包括mix、keyword、tag等

dict

词库路径

user

用户自定义的词库

stop-word

停用词路径

topn

关键词个数


温馨提示

1.R软件和Python都可以进行文本挖掘,R语言中tm包和Rwordseg包也可以进行文本挖掘。

2.在文本挖掘过程中利用worker函数中通过user参数添加词库

3.词库第一行一定要空着

4.自行添加词库,建议使用notepad++编辑,编码设置为UTF-8

5.如需要添加搜狗细胞词库,建议安装cidian包



撰稿:小怪兽


以上是关于统计文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章

专业解读 | 什么是文本挖掘?

你所不知道的文本挖掘

小白入门文本挖掘之基础篇

一文看懂什么是文本挖掘

R语言 数据挖掘-文本分析(1)

妈妈群文本挖掘