pycharm中python爬取知网论文信息并保存在Excel中

Posted Coding With you.....

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pycharm中python爬取知网论文信息并保存在Excel中相关的知识,希望对你有一定的参考价值。

#C:\\Users\\Dell\\PycharmProjects\\scratch_one\\20200208_paper.xlsx最终输出文件的地址

import requests
from bs4 import BeautifulSoup
from openpyxl import workbook  # 写入Excel表所用
#from openpyxl import load_workbook  # 读取Excel表所用


if __name__=="__main__":
    #  创建Excel表并写入数据
    ws = []  # 全局工作表对象
    wb = workbook.Workbook()  # 创建Excel对象
    ws = wb.active  # 获取当前正在操作的表对象
    ws.append(['标题名', '链接地址', '摘要', '单位—类型—年份—下载次数-被引次数'])     # 往表中写入标题行,以列表形式写入!


    keywords=input("请输入") #查询的主题 ,引号内容根据需要修改
    target='http://search.cnki.net/search.aspx?q='+str(keywords)+'&rank=relevant&cluster=all&val=CJFDTOTAL&p='
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
    headers = 'User-Agent':user_agent
    for i in range(10):
        i=i*15 #每页有15篇论文
        target=target.format(i) #翻页,是在p=中修改页数链接
        req=requests.get(url=target)
        html=req.text
        html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')
        bf=BeautifulSoup(html,"html.parser")
        texts=bf.find('div',class_='articles')#查看页面对应的审查元素,标签为articles
        texts_div=texts.find_all('div',class_='wz_content')#查看页面对应的审查元素
        for item in texts_div:
            item_name=item.find('a').text #标题
            item_href=item.find('a')['href']#链接网址
            item_abstract = item.find('span', class_='text').text#摘要
            item_refer = item.find('span', class_='year-count').text#发表单位、发表类型、发表年份、下载次数_引用次数

            ws.append([item_name,item_href,item_abstract,item_refer]) #向表格中添加需要的信息

    wb.save('20200208_paper.xlsx')
    print("ok")

 

以上是关于pycharm中python爬取知网论文信息并保存在Excel中的主要内容,如果未能解决你的问题,请参考以下文章

可以通过Java爬取中国知网数据吗

《爬取知网文献信息》中代码的一些优化

Python爬虫实战,Scrapy实战,爬取并简单分析知网中国专利数据

Python爬取中国知网文献参考文献引证文献

用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化。(附源码)

pycharm爬取的数据在哪