文本挖掘与展示之文献关键词
Posted 生信学习
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘与展示之文献关键词相关的知识,希望对你有一定的参考价值。
想看看Biotechnology and bioengineering杂志上最新的研究方向及研究热点,通过对文献的keywords进行统计分析,然后用词云进行可视化展示,似乎可行。
文献检索
可以看到我们需要的keywords在<div>标签下的<p>段落内,可以通过class = "keywords"进行定位。
火狐浏览器另存页面为PubMed-NCBI.html
利用python的bs4模块解析html文件
# coding=utf-8
import os
from bs4 import BeautifulSoup os.chdir(r'F:pycharm_projects4')
# 读取html文件并生成Soup对象
File = open('PubMed-NCBI.html',encoding='UTF-8') Soup = BeautifulSoup(File,"lxml")
# 使用finfAll方法定位class属性为keywords的div块,存入列表
divs = Soup.findAll('div', {'class':'keywords'}) resultFile = open(r'.keywords_result.txt', 'w',encoding='UTF-8')
# 遍历列表divs,将结果keywords写入文件
for div in divs: resultFile.write(div.p.string + ' ') resultFile.close()
利用R绘制词云进行展示
#第一步:读取
setwd("F:/R working directory/wordcloud")
text<-scan("keywords_result.txt",what='')
#第二步:分词
library(jiebaR) ##加载包
engine_s<-worker() ##初始化分词器
seg<-segment(text,engine_s) ##分词
head(seg)
f1<-freq(seg) ##统计词频
head(f1)
f2<-f1[order((f1)[2],decreasing=TRUE),]##根据词频降序排列
head(f2) # 第三步:绘图
library(wordcloud2)#加载wordcloud2包
wordcloud2(f2, size = 0.8 ,shape='star')#绘制成五角形状词云
letterCloud(f2, size=1, word="生信学习") #绘制成字符
参考
(1)python网络数据采集.pdf
(2)
以上是关于文本挖掘与展示之文献关键词的主要内容,如果未能解决你的问题,请参考以下文章