文本挖掘与展示之文献关键词

Posted 生信学习

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘与展示之文献关键词相关的知识,希望对你有一定的参考价值。

  想看看Biotechnology and bioengineering杂志上最新的研究方向及研究热点,通过对文献的keywords进行统计分析,然后用词云进行可视化展示,似乎可行。

文献检索

文本挖掘与展示之文献关键词

可以看到我们需要的keywords在<div>标签下的<p>段落内,可以通过class = "keywords"进行定位。

火狐浏览器另存页面为PubMed-NCBI.html

利用python的bs4模块解析html文件

# coding=utf-8

import os
from bs4 import BeautifulSoup os.chdir(r'F:pycharm_projects4')
# 读取html文件并生成Soup对象

File = open('PubMed-NCBI.html',encoding='UTF-8') Soup = BeautifulSoup(File,"lxml")

# 使用finfAll方法定位class属性为keywords的div块,存入列表
divs = Soup.findAll('div', {'class':'keywords'}) resultFile = open(r'.keywords_result.txt', 'w',encoding='UTF-8')

#
遍历列表divs,将结果keywords写入文件
for div in divs: resultFile.write(div.p.string + ' ') resultFile.close()

文本挖掘与展示之文献关键词

利用R绘制词云进行展示

#第一步:读取

setwd("F:/R working directory/wordcloud")
text<-scan("keywords_result.txt",what='')

#第二步:分词

library(jiebaR) ##加载包

engine_s<-worker() ##初始化分词器

seg<-segment(text,engine_s) ##分词

head(seg)

f1<-freq(seg) ##统计词频
head(f1)

f2<-f1[order((f1)[2],decreasing=TRUE),]##根据词频降序排列
head(f2) # 第三步:绘图

library(wordcloud2)#加载wordcloud2包

wordcloud2(f2, size = 0.8 ,shape='star')#绘制成五角形状词云

letterCloud(f2, size=1, word="生信学习") #绘制成字符

参考

(1)python网络数据采集.pdf

(2)


以上是关于文本挖掘与展示之文献关键词的主要内容,如果未能解决你的问题,请参考以下文章

最强干货关于文本挖掘的资料(文献,报告,策略,代码)

海量文献的文本挖掘表明:全文比摘要更具价值

文本分类

文本分类

用文本挖掘技术解读2019年政府工作报告

数据挖掘之同义词挖掘