中国女足绝地大逆转,爬取了微博评论区,评论很精彩

Posted 刘润森!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中国女足绝地大逆转,爬取了微博评论区,评论很精彩相关的知识,希望对你有一定的参考价值。

昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转。

打开微博一看,WC,微博推给我的第一条就是一篇瓜文。

这几天正好有的瓜,于是就爬了一下微博上女足夺冠的评论区,分析一下高频词汇什么的,分析大众心理哈哈哈…

爬取的链接:https://weibo.com/1749990115/LegA0AG9A

网页端前端页面比较复杂,还有加密数据,比较难操作。相对的来说,手机端和移动端比较好爬。

weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端

将对应网页端的链接转化到了移动端:https://m.weibo.cn/detail/4734003288741850

特意去Google了一下, 获取评论数据的旧API接口url是这个样子滴:https://m.weibo.cn/api/comments/show?id=id&page=page,此处的id表示要爬的微博的id,page表示第几页的评论数据,同时惊奇的发现,目前这个接口还是可用的。

由于是热门微博,在不断Google后,找了相关接口信息

https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0

接下来就是json解析的事情了。

# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):
    global commentLists
    url = url + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0'
    print(url)
    web_data = requests.get(url, headers=headers,
                            cookies=Cookie)
    js_con = web_data.json()
    max_id = js_con['data']['max_id']
    print(max_id)
    max = js_con['data']['max']
    comments_list = js_con['data']['data']
    print(comments_list)
    extract_data(comments_list)
    write_in('1-1')
    print("已获取第1页的评论")
    return max_id, max, commentLists

爬取的第一页评论如下:

关于下一页爬取,这里不展开说明

在爬取评论中一共爬取了500页评价,大约7000多条

其中,点赞非常高的评论

  • 凭什么只有1000万!?每场600万,同工同酬!!为什么国家要歧视女性?
  • 应把男足的工资砍一半给女足奖励!这样,奖罚分明!
  • 男足一人一千万年薪?
  • 男足可以因为辱华而解散吗
  • 一个球队1千万多吗?请给一个人一千万,谢谢。
  • 解散男足吧
  • 建议男足2000月薪,赢一场加20w奖金

最后就是到了评论可视化词云图的环节:

词云图中解散男足字眼大量出现,可见对男足的失望。奖励女足,一千万远远不够。

最后时刻的一攻一守,实在是太精彩。特别有感触的一件事:在女足扳平比分之后,无论是身边一起看球的朋友,大家都觉得女足能绝杀。

中国女足在不被人看好的情况下,以让人信服的方式强势重返亚洲杯之巅,其顽强的拼搏精神只是表象。用专业人做专业的事——用对人——才是女足关键时刻能够拼下日、韩两大劲敌,夺回这个冠军的根本原因。

关于微博爬取和词云图代码,公众号后台回复**《女足》**

以上是关于中国女足绝地大逆转,爬取了微博评论区,评论很精彩的主要内容,如果未能解决你的问题,请参考以下文章

我用Python爬取了B站3948评论,围观最近超火的“杀疯了!这就是国家队的美貌吗?”评论区

python爬取主播信息

获取数据——爬取某微博评论

Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更多」爬取

爬取了京东商城上的部分手机评论数据,仅供学习使用

评论区抽奖程序