python爬取中国知网部分论文信息

Posted ljy1227476113

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬取中国知网部分论文信息相关的知识,希望对你有一定的参考价值。

爬取指定主题的论文,并以相关度排序。

 1 #!/usr/bin/python3
 2 # -*- coding: utf-8 -*- 
 3 import requests
 4 import linecache
 5 import random
 6 from bs4 import BeautifulSoup
 7 
 8 if __name__=="__main__":
 9     keywords=通信 ### 查询的主题 
10     n=0
11     target=http://search.cnki.net/search.aspx?q=+str(keywords)+&rank=relevant&cluster=all&val=CJFDTOTAL&p={}
12     user_agent = Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/54.0.2840.99 Safari/537.36
13     headers = {User-Agent:user_agent}
14     for i in range(10):
15         i=i*15
16         target=target.format(i)
17         req=requests.get(url=target)
18         html=req.text
19         html=html.replace(<br>, ).replace(<br/>, ).replace(/>,>)
20         bf=BeautifulSoup(html,"html.parser")
21         texts=bf.find(div,class_=articles)
22         texts_div=texts.find_all(div,class_=wz_content)
23         for item in texts_div:
24             item_name=item.find(a).text
25             item_href=item.find(a)[href]
26             item_refer2=item.find(span,class_=count).text
27             print({} {} {}\n.format(item_name,item_href,item_refer2))
28     print(n)

 

以上是关于python爬取中国知网部分论文信息的主要内容,如果未能解决你的问题,请参考以下文章

Python 爬取外文期刊论文信息(机械 仪表工业)

可以通过Java爬取中国知网数据吗

Python爬虫——定向爬取“中国大学排名网”

python-爬取中国大学排名网站信息IndexError:list index out of range

python-爬取中国大学排名网站信息IndexError:list index out of range

《爬取知网文献信息》中代码的一些优化