合肥工业大学python大作业之爬虫（手把手教你爬取微博热搜）

Posted 2021-12-06 少๑渊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了合肥工业大学python大作业之爬虫（手把手教你爬取微博热搜）相关的知识，希望对你有一定的参考价值。

一、题目要求

二、题目分析

1、对爬虫的概述

2、爬取信息的基本流程

不管是通用的网络爬虫还是聚焦性爬虫，其实爬取网页并且获取信息大概按顺序分为以下一些步骤：

（1）选择你想要爬取的网站的网址，和想要的信息（例如图片或者文字或者音频等）

（2）获取User-Agent，它的作用是将爬虫伪装成浏览器发送信息，让被爬取的网站认为我们是用户的主观点击，而不是一个程序运行的结果。

（3）通过request获取url，从而得到网页源码，然后在源码中查找数据。

（4）获取网页响应，这里很重要，也要注意反爬。

（5）通过url获取网页源代码，然后通过正则表达式获取所需要的信息

（6）保存获取的信息

3、爬虫的准备流程

在爬虫中我们常用的库有BeautifulSoup库（靓汤），它的作用是解析网页并且获取数据；还有re库，它的作用是对正则表达式的内容进行文字匹配；还有urlib下的request和error，可以定制url获取网页源码；最后是xlwt或者matplotlib等库，用于对保存的数据进行可视化处理。

如果您使用的是Pycharm，那么下载这些库可以通过以下步骤：在pycharm下依次点击File-->Settings-->Project Interpreter然后可以见到以下界面

如果您没有安装Pycharm，那么可以按下win+R键，输入cmd，在打开的窗口中输入“pip install 库名”即可等待它安装成功。

from bs4 import BeautifulSoup  # 网页解析，获取数据
import re  # 正则表达式，进行文字匹配`
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt  # 进行excel操作
import matplotlib.pyplot as plt

4、具体实现过程

为了方便理解，我将代码分成了几个部分：主函数部分、编写正则表达式部分、获取URL部分、获取所需信息部分和保存信息或者实现可视化部分。

（1）在主函数中，我们首先需要给定想要爬取的网址，具体方法略，直接搜即可，在这里因为题目要求，我们按照爬取微博为例（主要爬取热搜排名、热搜标题、热搜链接、热搜热度值）。然后通过getData方法获取储存着信息的二维列表；其实在getData里也调用了获取网页源代码的askURL的方法，最后指定储存路径并通过saveData储存到Excel中或者通过其他可视化方法呈现。

def main():
    baseurl = "https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
    datalist = getData(baseurl)
    savepath = "D:\\PyCharm Community Edition 2020.2.3\\微博热搜50.xls"
    saveData(datalist,savepath)

（2）然后所需要做的是编写正则表达式：

为什么要写正则表达式呢？是因为在我们通过url获取到的网页源代码里有着几千行代码，但是我们所需要的仅仅是一部分，所以正则表达式其实是一种筛选标准，筛选我们所需要的部分。那么什么又是正则表达式呢？这里我不细讲，给出几张图片和一个链接，各位看官自行查阅：正则表达式

对于本题而言，所需要获取的是热搜排名（其实可有可无，因为是按排名读取，只要在最后写入的时候加上去就行）、链接、标题、热度值。

那么既然上面说了，正则表达式是一种筛选标准，筛选满足条件的数据，那么我们起码要先观察一下有哪些数据吧？

打开微博热搜:https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

右键查看源代码：

得到这么一串花里胡哨的东西，我们忍着性子找找看有没有我们需要的内容：

哎，发现了。这些不就是我要的数据吗？为啥就是这些呢？你跟热搜榜比对一下不就行了...

那么我们一个个来，观察一下所有热搜链接的共同点：

对，就是都在<a href=" " target="_blank">这半个标签里面。唯一的不同就是href中的内容，毕竟是不同的链接嘛。所以我们获取链接的正则表达式就是

findLink = re.compile(r'<a href="(.*?)" target="_blank">')

其中的.*?指获取任意字符0次或者多次尽可能少，也就是不管里面链接多长，都可以获取。

观察上面的标题所在位置<a>标题</a>，在两个a标签之前。但是我们发现不仅仅标题不同，这里面还包含着热搜嘞。所以我们完全可以通过

findTitleAndLink = re.compile(r'<a href="(.*?)" target="_blank">(.*?)</a>')

同时获取链接和标题，岂不美哉！获取的数据第一个是链接，第二个是标题。

获取热度的就更简单了，热度值在<span></span>标签中。直接重复.*?就可以了吗？如果这样就错误了，因为细看热搜，就会发现，有的热搜热度除了数值外，还有：

音乐、剧集等汉字，并且汉字和数字之间还有一个空格，你可以选择直接舍弃汉字和空格部分，也可以像我一样包含他们：

findHot = re.compile(r'<span>(\\w*\\s\\d*)</span>')

（3）得到一个指定网页的内容

在这个方法里，我们一定要做的一件事就是设置head。因为我们访问网页并点击进去就是一个完整的浏览过程，当我们想要通过程序获取的时候，必须要模拟这种过程，不然浏览器会拒绝我们接入，而head就是帮助我们模拟这种过程的工具。

我们通过模拟浏览器头部信息，向微博服务器发送消息，一般模拟谷歌浏览器：

  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'

但其实直接就这样就设置完成的话，最终爬取到的是Sina Visitor System 。嗯，应该是被反爬了，咋办呢？还可以通过添加cookie：打开热搜网页，F12进入开发者工具

选择文档，就可以查看到cookie内容，赋值粘贴到head里即可。为啥加上cookie就可以爬取了？因为cookies就是某些网站为了识别用户身份、进行会话跟踪而储存在用户本地终端上的数据，设置好cookies可以模拟用户操作，让浏览器“放下戒心”。具体解释如下：

设置好head之后，通过urllib的request传入爬取的网页和head值，获取到request。

然后通过urllib.request.urlopen返回一个类型是http.client.HTTPResponse的response对象。最后用一个字符串html储存response解码后的内容，注意解码形式为utf-8.最后返回html就可以获取到网页源代码的字符串形式了。

def askURL(url):
    head = {  # 模拟浏览器头部信息，向服务器发送消息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73',
         'referer': 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6',
        'cookie':'SINAGLOBAL=5941149481278.592.1604320169618; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF9AA32bgUYQHiXEuuVxxJR5JpX5KMhUgL.Fo-4So.ESoMfe0B2dJLoI0qLxK-L1-zLB.BLxKqLBo5L1K2LxK-L1h2LBoqLxK-L1heL12qLxKMLBoBLB-zLxKqL1--LB-zt; ALF=1667371481; SSOLoginState=1635835482; SCF=AkN12N2iMhFTeM7jKDJgpYcYOf5kmH3Ce06tDJU2y2mljYlKd05KkJok_NVeQQlKS5DVQ3MLyNAD0Dq6QEWbaWs.; SUB=_2A25MhK4KDeRhGeNH7VsT9inJyDiIHXVv85jCrDV8PUNbmtANLWLukW9NSp1gXY7kU378-JL7Yek2RvC4p8_BqxCH; _s_tentry=weibo.com; Apache=683258631837.9574.1635836312586; ULV=1635836312593:18:1:1:683258631837.9574.1635836312586:1633605575935; UOR=www.hfut.edu.cn,widget.weibo.com,www.cnblogs.com',

    }
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

（4）获取数据并储存

定义一个空二维列表储存信息，然后通过BeautifulSoup传入获取的字符串类型源代码html和解析器类型html.parser。然后通过soup的find_all方法找到所有符合条件的数据，进行遍历。

这次还要再回顾这个图：

细看知道，不管是热搜标题还是链接还是热度，都包含在td标签里，那么我们可以在find_all中指定搜索类型'td'，并且为了缩小范围，我们可以加上td的class属性，可以看到源代码中class的属性值td-02。之后就可以开始遍历了。

在每次遍历中都定义一个一维空列表，将信息依次放入。对了，因为刚刚将html转成了其他类型，所以循环时记得转回字符串，然后通过正则表达式获取信息依次append进行就行了。这里需要注意的一个坑是：微博可能有置顶的，那个是不在50条热搜之内的，但是它也是新闻，我们可以也将它放入，最后输出的时候告诉用户这个是置顶的就行；还有一个坑是，现在双十一快到了，经常有广告掺杂在热搜里面，很烦，因为广告的代码和热搜不太一样，正则表达式识别到td但是识别不出需要的内容就会卡死在那。

我们可以每次读取到它的时候,都直接跳过，~~毕竟谁想看广告呢你说是吧~~。然后在每次循环结束的时候将一维列表放入二维列表即可。那么一来二去，咱不就保存了所有需要的信息了吗？

ps：可以通过APScheduler库定时爬取信息并且更新热搜内容，时间问题先不详述，寒假或者其他时候有时间再具体写。

（5）可视化保存数据

我们已将数据全部保存到二维列表中了，那么下一步很显然就是保存。最大众的方法就是写一个txt文件，然后一行一行将信息存进去；稍微升级一点就是将信息储存到Excel里；再高阶一点就是通过matplotlib和numpy库将二维列表转化成二维numpy数组并且以直方图的形式呈现出来；再高阶一点就是实时更新热搜排名并且以直方图的形式显示出来，结果看起来像是动画一般有动态效果。

还是那句话，快要考试了，实在没时间，~~只写了保存到Excel~~，其余可视化方案（直方图、饼图）以后再说。具体保存操作没有难度，就是新建或打开一个Excel，逐行写入即可。

最近又抽了点时间做了一个直方图可视化，因为50条热搜太多了，画在图上十分不美观，我就选择了cnt条数据进行展示（cnt由用户自己决定）。代码如下

def draw(datalist):
    x=[]# 保存标题
    y=[]# 保存热度
    cnt=0 # 因为我们在二维列表里存了五十个，所以现在由用户决定我们拿多少出来画图
    for i in datalist:
        if i[2]=='置顶':# 制定无热度，跳过
            continue
        cnt+=1
        if cnt>20:# 这里我设置的是展示20条热搜
            break
        x.append(i[1])
        # 当时挖了个坑，就是读取热度的时候将汉字和空格都加进来了，现在肯定要去掉
        tmp=str(i[2]).split()
        if(len(tmp)==1):
            y.append((int)(i[2]))
        else:
            y.append((int)(tmp[1]))
    # bath绘制水平条形图
    plt.barh(range(1,cnt),y,color='steelblue')
    plt.yticks(range(1,cnt),x)
    plt.xlim(120000,2600000)
    plt.xlabel("标题")
    plt.ylabel("热度")
    plt.title("微博热搜前"+str(cnt-1))
    for m, n in enumerate(y):
        # 前两个参数表示标签的坐标位置，第三个参数表示标签的值
        plt.text(n,m+1,n, va='center')
    plt.show()

（6）运行结果

5、代码

# _*_ coding:utf8 _*_
# -*- codeing = utf-8 -*-
import requests
from bs4 import BeautifulSoup  
import re
import urllib.request, urllib.error  
import xlwt  
import matplotlib.pyplot as plt
findLink = re.compile(r'<a href="(.*?)" target="_blank">')
# 获取标题
findTitle = re.compile(r'<a href="(.*?)" target="_blank">(.*?)</a>')
# 获取热度值
findHot = re.compile(r'<span>(\\w*\\s\\d*)</span>')

def main():
    baseurl = "https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"  
   # baseurl="view-source:file:///C:/Users/%E5%AD%99%E5%BB%BA%E6%9E%97/Desktop/%E5%89%8D%E7%AB%AF/new%201.html"
    datalist = getData(baseurl)
    savepath = "D:\\PyCharm Community Edition 2020.2.3\\微博热搜50.xls"    #当前目录新建XLS，存储进去
    saveData(datalist,savepath)      

def getData(baseurl):
    datalist = [] 
    url=baseurl
    html=askURL(url)
    soup=BeautifulSoup(html,"html.parser")
    for item in soup.find_all('td',class_="td-02"):
        data=[]
        item=str(item)
        if len(re.findall(findLink,item))==0:
                continue
        link=re.findall(findLink,item)[0]
        data.append(link)
        # print(re.findall(findTitle,item))
        title=str(re.findall(findTitle,item)[0])
        title=title.strip('(')
        title=title.strip(')')
        title=title.replace("\\'","")
        title=title.split(",")
        data.append(title[1])
        if len(re.findall(findHot,item))==0:
            data.append("置顶")
            datalist.append(data)
            continue
        hot=re.findall(findHot,item)[0]
        data.append(hot)
        datalist.append(data)
    return datalist



# 得到指定一个URL的网页内容
def askURL(url):
    head = {  # 模拟浏览器头部信息，向服务器发送消息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73',
         'referer': 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6',
        'cookie':'SINAGLOBAL=5941149481278.592.1604320169618; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF9AA32bgUYQHiXEuuVxxJR5JpX5KMhUgL.Fo-4So.ESoMfe0B2dJLoI0qLxK-L1-zLB.BLxKqLBo5L1K2LxK-L1h2LBoqLxK-L1heL12qLxKMLBoBLB-zLxKqL1--LB-zt; ALF=1667371481; SSOLoginState=1635835482; SCF=AkN12N2iMhFTeM7jKDJgpYcYOf5kmH3Ce06tDJU2y2mljYlKd05KkJok_NVeQQlKS5DVQ3MLyNAD0Dq6QEWbaWs.; SUB=_2A25MhK4KDeRhGeNH7VsT9inJyDiIHXVv85jCrDV8PUNbmtANLWLukW9NSp1gXY7kU378-JL7Yek2RvC4p8_BqxCH; _s_tentry=weibo.com; Apache=683258631837.9574.1635836312586; ULV=1635836312593:18:1:1:683258631837.9574.1635836312586:1633605575935; UOR=www.hfut.edu.cn,widget.weibo.com,www.cnblogs.com',

    }
 
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


def saveData(datalist,savepath):
    print("save.......")
    print(datalist)
    book = xlwt.Workbook(encoding="utf-8",style_compression=0) #创建workbook对象
    sheet = book.add_sheet('微博热搜Top50', cell_overwrite_ok=True) #创建工作表
    # col = ["热搜排名","热搜链接","热搜标题","热搜热度"]
    # for i in range(0, 4):
    #     sheet.write(1, i, col[i])  # 列名
    for i in range(1,51):
        print("第%d条" %(i))       #输出语句，用来测试
        data = datalist[i-1]
        print(data)
        if i==1:
            sheet.write(i-1,0,"置顶")
            sheet.write(i-1,1,data[0])
            sheet.write(i-1, 2, data[1])
            sheet.write(i-1, 3, data[2])
        else:
            sheet.write(i-1,0,i-1)
        for j in range(1,4):
            sheet.write(i-1, j, data[j-1])  # 数据
    book.save(savepath) # 保存

if __name__ == "__main__":  # 当程序执行时
    # 调用函数
     main()
     print("爬取完毕！")

三、尾言

好几天没有更新算法题真的是因为事情太多了，期中考试之后一定补回来！完整的python大作业资源链接如下：HFUTpy大作业

以上是关于合肥工业大学python大作业之爬虫（手把手教你爬取微博热搜）的主要内容，如果未能解决你的问题，请参考以下文章