Python爬虫实战：应用宝APP数据信息采集

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫实战：应用宝APP数据信息采集相关的知识，希望对你有一定的参考价值。

参考技术A 数据来源: 应用宝
开发环境：win10、python3.7
开发工具：pycharm、Chrome

明确需要采集的数据：

提取到页面的分类标签
获取到a标签的href属性
用于之后拼接动态地址

找到动态加载的app数据加载地址

url的值是每个分类标签的值
https://sj.qq.com/myapp/cate/appList.htm?orgame=1&categoryId=-10&pageSize=20&pageContext=undefined
拼接新的url值发送请求

Python实战高校数据采集，爬虫训练场项目数据储备

在制作爬虫训练场项目时，需要准备大量的数据，供大家学习使用，本系列博客用于数据储备。

文章目录

- 示例代码如下所示
- 数据入库

本次要采集的是高考大数据，即 2022 年学校排名，数据来源为百度，地址如下。

https://motion.baidu.com/activity/gaokao2022/trend

通过开发者工具获取请求接口与请求参数，得到内容如下所示。

请求地址：https://motion.baidu.com/gaokao/trendasync?pageSize=30&pageIndex=2
请求方法：POST
请求头重点参数：
- origin：域名
- referer：上一页地址
- user-agent：用户代理
请求参数：
- 查询参数：pageSize & pageIndex
- 请求载荷："source":"全国","tabValue":"campus","filter":,"isScrolling":1

多次测试除 Cookie 外，无特殊加密参数，并且我们对数据的采集效率无要求，所以可以直接使用 requests 模块对请求进行模拟。

示例代码如下所示

一款普通的 requests 模块爬虫。

import json

import requests


def get_gaokao_data():
    headers = 
        "origin": "https://motion.baidu.com",
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
    
    data = "source": "全国", "tabValue": "campus", "filter": , "isScrolling": 1
    res = requests.post("https://motion.baidu.com/gaokao/trendasync?pageSize=30&pageIndex=0", headers=headers,
                        data=json.dumps(data))
    print(res.text)


if __name__ == '__main__':
    get_gaokao_data()

运行代码，可以得到 JSON 格式的响应数据，并且检测到 pageIndex 参数从 0 开始计数，当设置为无限大时，无数据返回，即得到下述格式数据，表示数据已经获取完毕。也可以通过判断 finished 的值判断请求是否结束。

"status":0,"msg":"successful","data":"list":[],"finished":true,"trace":"logid":xxxx

既然已经获取了起始和结尾数据，那我们就可以对爬虫的采集层次进行控制了，通过一个【死循环】抓取数据，当 data/list 为空时，结束采集。

数据入库

上文的示例代码，已经成功采集到 JSON 数据，接下来将其存储到 MySQL 数据库中，建表前对响应数据进行格式化操作，核对字段。这里重要的是 data/list 中的数据项。

批次/batchTimes：本科
类别/category：综合类
城市/city：城市
特色/feature：["上海", "本科", "综合类", "985", "211", "双一流", "强基计划", "自主招生"]
热度/hotValue：
学校名/name：同济大学
校徽/pic：`ttps://static-data.eol.cn/upload/logo/73.jpg`
省份/province："上海"

基于该数据，建立数据表结构如下所示。

接下来编写数据解析函数和数据入库函数，代码如下所示。

def format_data(data):
    """
    数据解析函数
    :return:
    """
    finished = data["data"]["finished"]

    if finished:
        # 数据采集完毕
        return -1
    else:
        ret_list = data["data"]["list"]
        school_list = []
        for item in ret_list:
            province = item["province"]
            city = item["city"]
            name = item["name"]
            batchTimes = item["batchTimes"]
            pic = item["pic"]
            feature = ",".join(item["feature"])
            hotValue = item["hotValue"]
            category = item["category"]
            school_list.append((name, province, city, feature, hotValue, pic, category, batchTimes))

        insert_mysql(school_list)

上述代码无特殊部分，仅数据采集结束时，返回了状态值 -1，该值用于后续在主函数进行判断使用。

数据入库代码，使用 cursor.executemany()，函数编码如下所示。

def insert_mysql(schools):
    """
    插入MySQL数据
    :return:
    """
    conn = pymysql.connect(
        host='127.0.0.1',
        port=3306,
        user='root',
        password='root', # 你的密码
        database='playground',
        charset='utf8'
    )
    cursor = conn.cursor()
    sql = "insert into school_list(name,province,city,feature,hotValue,pic,category,batchTimes)values(%s,%s,%s,%s,%s,%s,%s,%s)"

    affect_rows = cursor.executemany(sql, schools)

    conn.commit()

    cursor.close()
    conn.close()

运行代码，可以将首页数据插入到表格中，共采集到 30 条数据，在 MySQL 表中查阅如下。

最后一步，将刚刚的代码扩展到全量数据，即【死循环】实现数据采集。

if __name__ == '__main__':
    flag = True
    index = 1
    while flag:
        ret = get_gaokao_data(index)
        index += 1
        if ret == -1:
            flag = False

运行几秒钟之后，可以得到完整数据，最后的结果是 2760 所学校。

这些数据，最后将发布到 pachong.vip，大家可以交流学习使用。

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕，可以点点小手赞一下
🌻 发现错误，直接评论区中指正吧
📆 橡皮擦的第 804 篇原创博客

从订购之日起，案例 5 年内保证更新

以上是关于Python爬虫实战：应用宝APP数据信息采集的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫实战：应用宝APP数据信息采集

爬虫凶猛：爬支付宝爬微信窃取数据/编程实战：爬虫架构

图片获取太麻烦？python爬虫实战：百度百万级图片采集

数据分析实战——08 | 数据采集：如何自动化采集数据？

电子课本分析，基于参数跳转逻辑的实现，Python爬虫实战分析

Python实战采集某宝商品：帮你挑选女朋友最爱的月饼口味