文本挖掘与展示之文献关键词

Posted 2021-04-16 生信学习

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘与展示之文献关键词相关的知识，希望对你有一定的参考价值。

想看看Biotechnology and bioengineering杂志上最新的研究方向及研究热点，通过对文献的keywords进行统计分析，然后用词云进行可视化展示，似乎可行。

文献检索

文本挖掘与展示之文献关键词

可以看到我们需要的keywords在<div>标签下的<p>段落内，可以通过class = "keywords"进行定位。

火狐浏览器另存页面为PubMed-NCBI.html

利用python的bs4模块解析html文件

# coding=utf-8

import os
from bs4 import BeautifulSoup

os.chdir(r'F:pycharm_projects4')
# 读取html文件并生成Soup对象

File = open('PubMed-NCBI.html',encoding='UTF-8')
Soup = BeautifulSoup(File,"lxml")

# 使用finfAll方法定位class属性为keywords的div块，存入列表
divs = Soup.findAll('div', {'class':'keywords'})

resultFile = open(r'.keywords_result.txt', 'w',encoding='UTF-8')

# 遍历列表divs，将结果keywords写入文件
for div in divs:
    resultFile.write(div.p.string + '
')
resultFile.close()

文本挖掘与展示之文献关键词

利用R绘制词云进行展示

#第一步：读取

setwd("F:/R working directory/wordcloud")
text<-scan("keywords_result.txt",what='')

#第二步：分词

library(jiebaR) ##加载包

engine_s<-worker() ##初始化分词器

seg<-segment(text,engine_s)   ##分词

head(seg)

f1<-freq(seg)   ##统计词频
head(f1)

f2<-f1[order((f1)[2],decreasing=TRUE),]##根据词频降序排列
head(f2) 

# 第三步：绘图

library(wordcloud2)#加载wordcloud2包

wordcloud2(f2, size = 0.8 ,shape='star')#绘制成五角形状词云

letterCloud(f2, size=1, word="生信学习") #绘制成字符

参考

（1）python网络数据采集.pdf

（2）

以上是关于文本挖掘与展示之文献关键词的主要内容，如果未能解决你的问题，请参考以下文章