中国女足绝地大逆转，爬取了微博评论区，评论很精彩

Posted 2022-06-04 刘润森！

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了中国女足绝地大逆转，爬取了微博评论区，评论很精彩相关的知识，希望对你有一定的参考价值。

昨晚，女足16年后重夺亚洲杯，决赛落后两球，依然能保持对比赛的观察和思考，下半场从容调度人手，最后完成逆转。

打开微博一看，WC，微博推给我的第一条就是一篇瓜文。

这几天正好有的瓜，于是就爬了一下微博上女足夺冠的评论区，分析一下高频词汇什么的，分析大众心理哈哈哈…

爬取的链接：https://weibo.com/1749990115/LegA0AG9A

网页端前端页面比较复杂，还有加密数据，比较难操作。相对的来说，手机端和移动端比较好爬。

weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端

将对应网页端的链接转化到了移动端：https://m.weibo.cn/detail/4734003288741850

特意去Google了一下，获取评论数据的旧API接口url是这个样子滴：https://m.weibo.cn/api/comments/show?id=id&page=page，此处的id表示要爬的微博的id，page表示第几页的评论数据，同时惊奇的发现，目前这个接口还是可用的。

由于是热门微博，在不断Google后，找了相关接口信息

https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0

接下来就是json解析的事情了。

# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):
    global commentLists
    url = url + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0'
    print(url)
    web_data = requests.get(url, headers=headers,
                            cookies=Cookie)
    js_con = web_data.json()
    max_id = js_con['data']['max_id']
    print(max_id)
    max = js_con['data']['max']
    comments_list = js_con['data']['data']
    print(comments_list)
    extract_data(comments_list)
    write_in('1-1')
    print("已获取第1页的评论")
    return max_id, max, commentLists

爬取的第一页评论如下：