爬取B站热门视频排行榜

Posted 2021-02-28 lanshj

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬取B站热门视频排行榜相关的知识，希望对你有一定的参考价值。

一、主题式网络爬虫设计方案
1.主题式网络爬虫名称：爬取B站热门视频排行榜
2.主题式网络爬虫爬取的内容：统计所有投稿视频的数据综合得分，每日更新数据(作品，播放量，弹幕，作者)

3.主题式网络爬虫设计方案概述：找到网站地址，分析网站源代码，找到自己所需要的数据所在的位置，提取数据，进行数据整理，数据可视化等操作

二、主题页面的结构特征分析
主题页面的结构与特征分析：

找到我们需要的数据，进行找查定位技术图片

技术图片

我们需要的内容分别藏在‘a‘,class_="title"，‘span‘,class_="data-box"，‘div‘,class_="pts"里面

三、网络爬虫程序设计

1.数据爬取与采集

首先爬取网页通用框架

技术图片

测试爬取的内容技术图片

然后再将内容进行解析

技术图片

测试解析的内容

技术图片

分析之前的网页源码

技术图片

尝试把我们需要的内容打印出来

技术图片

没问题后将刚刚的步骤打包

技术图片

其他需要爬取的数据同理技术图片

大部分整理完后进行细分

技术图片

整理完全部数据之后导出excel文件方便查看

技术图片

数据整理完毕、开始进行数据可视化

画出柱状图和散点图

技术图片

输出结果

技术图片

建立变量之间的回归方程

技术图片

输出结果

技术图片

四.

附上完整程序代码

#导入需要用到的模块
import requests
import bs4
import re
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

plt.rcParams[‘font.sans-serif‘]=[‘SimHei‘]#用来正常显示中文
plt.rcParams[‘axes.unicode_minus‘]=False#用来正常显示负号

def get_url(url):#获取网页内容
    #伪装用户
    headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3706.400 SLBrowser/10.0.4040.400‘}
    try:
        #尝试获取网页    
        f = requests.get(url,headers = headers)
        #如果状态码不是200则引发异常
        f.raise_for_status()
        #编码
        f.encoding = f.apparent_encoding
        #返回获取的网页
        return f.text
        
    except:
        #状态码不是200打印产生异常
        print(‘产生异常‘)

def bs(text):
    #将读取到的网页解析
    soup = bs4.BeautifulSoup(text,‘html.parser‘)
    return soup
       
def cont_ent(soup):
    #提取排行前100的标题
    m = soup.find_all(‘a‘,class_="title") 
    n=[]
    for i in m:
        n.append(i.text)
    return (n)#整理成列表

def cont_ent2(soup):
    #提取播放量，弹幕，作者
    x = soup.find_all(‘span‘,class_="data-box")
    n=[]
    for i in x:
        n.append(i.text)
    return (n)#整理成列表

def cont_ent3(soup):
    #提取综合得分
    k = soup.find_all(‘div‘,class_="pts")
    n=[]
    for i in k:
        #因为分数没有过千万的所以可以搜集千万以内的数字
        c=re.search(‘d?d?d?d?d?d?d?d?‘,i.text)
        n.append(eval(c.group()))
    return (n)#整理成列表

#把之前提取播放量，弹幕，作者再进行整理
def bofang(cone):#播放量
    m=3
    n=[]
    for i in cone:
        if m%3==0:
            n.append(i)
        m+=1
    return n
def danmu(cone):#弹幕
    m=2
    n=[]
    for i in cone:
        if m%3==0:
            n.append(i)
        m+=1
    return n
def zuozhe(cone):#作者
    m=1
    n=[]
    for i in cone:
        if m%3==0:
            n.append(i)
        m+=1
    return n
    

def main():
    #哔哩哔哩热搜视频排行链接
    url = ‘https://www.bilibili.com/ranking?‘
    #获取网页
    some = get_url(url)
    #解析网页
    soup = bs(some)
    ‘‘‘with open(‘try2.txt‘,‘w‘,encoding=‘utf-8‘) as f:
        f.write(soup.text)#测试写代码过程中是否出错‘‘‘
    #数据处理
    #提取标题
    title = cont_ent(soup)
    #提取播放量，弹幕，作者
    cone = cont_ent2(soup)
    #提取综合得分
    score = cont_ent3(soup)
    ‘‘‘
    with open(‘title.txt‘,‘w‘,encoding=‘utf-8‘) as f:
        for i in title:
            f.write(str(title.index(i)+1)+‘.‘)
            f.write(i)
            f.write(‘
‘)
    
    with open(‘cone.txt‘,‘w‘,encoding=‘utf-8‘) as f:
        for i in cone:
            f.write(i)
            f.write(‘
‘)
    
    with open(‘score.txt‘,‘w‘,encoding=‘utf-8‘) as f:
        for i in score:
            f.write(i)
            f.write(‘
‘)
    ‘‘‘   #导出数据查看是否有误
    bfl = bofang(cone)
    dm = danmu(cone)
    zz = zuozhe(cone)
    
    
    df = pd.DataFrame({‘排名‘:range(1,101),‘标题‘:title,‘播放量‘:bfl,‘弹幕量‘:dm,‘作者‘:zz,‘综合得分‘:score})
    df.to_excel(‘b站热门视频排行前100.xlsx‘)
    
    
    #因数据太多所以挑排名前几的作图
    #柱状图
    plt.bar(range(1,21),score[:20])
    plt.xlabel(‘排名‘)
    plt.ylabel(‘综合得分‘)
    plt.title(‘前几名的综合得分柱状图‘)
    plt.show()
    
    #散点图
    plt.scatter(range(1,21),score[:20])
    plt.xlabel(‘排名‘)
    plt.ylabel(‘综合得分‘)
    plt.title(‘前几名的综合得分柱状图‘)
    plt.show()
    
    #回归分析
    file_path = "b站热门视频排行前100.xlsx"

    dataf = pd.read_excel(file_path)

    sns.lmplot(x=‘排名‘,y=‘综合得分‘,data=dataf)

    
main()

五、结论

1.排行是通过综合得分来进行排行，弹幕和播放量有一定的影响，吸引人的标题和视频的质量才是决定的关键

2.能够巩固之前学到的新知识，最好每隔一段时间前来复习一遍，网络爬虫很有趣。

以上是关于爬取B站热门视频排行榜的主要内容，如果未能解决你的问题，请参考以下文章

python爬取b站排行榜视频信息

爬取B站视频排名第一《祖国大好河山》1W+弹幕，得出一份词频词云图

简单的方法爬取b站dnf视频封面步骤解释

Python爬虫爬取各大热门短视频平台视频

爬取百度热门排行

java爬虫爬取b站视频分享iframe代码并保存10000条数据到数据库