火爆全网的《鱿鱼游戏》你看了吗？Python来全面分析一波！

Posted 2021-10-27 Python是世界上最好的语言

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了火爆全网的《鱿鱼游戏》你看了吗？Python来全面分析一波！相关的知识，希望对你有一定的参考价值。

前言

大家好，国庆大家玩的还阔以蛮！小编表示国庆相当于呆了七天，就去游了个泳，看了个电影，然后就没然后了！没出去玩主要是人多，堵车，去哪里都不好，还不如呆在家里，刷刷剧，打打游戏！多惬意！

刷剧的时候我看到了一个韩国电影吧，叫做鱿鱼游戏，不知道大家看了没有，抖音也把这个上了热门，所以大家应该蛮多人都知道的！今天就教大家来爬取一下！

技术工具

在正文开始之前，先介绍下本篇文章中用到的技术栈和工具。本文中涉及到的全部源码数据，点击这里可以获取工具或者完整代码

本文用到的技术栈和工具如下，归结为四个方面；

语言：Python，Vue ，javascript；
存储：MongoDB;
库：echarts ，Pymongo，WordArt...
软件：Photoshop；

数据采集

本次数据采集的目标网站为豆瓣，但自己的账号之前被封，所以只能采集到大概二百来条数据，豆瓣有相应的反爬机制，浏览10页以上的评论需要用户登录才能进行下一步操作

至于为啥账号被封，是因为之前自己学爬虫时不知道在哪里搞的【豆瓣模拟登录】代码，当时不知道代码有没有问题，愣头青直接用自己的号试了下，谁知道刚试完就被封了，而且还是永久的那种

在这里也给大家提个醒在以后做爬虫时，模拟登录时尽量用一些测试账号，能不用自己的号就别用，

这次数据采集也比较简单，就是更改 图2 中 url 上的 start 参数，以 offset 为 20 的规则作为下一页 url 的拼接；

拿到请求连接之后，用 requests 的 get 请求，再对获取到的 html 数据做个解析，就能获取到我们需要的数据了；采集核心代码贴在下方

for offset in range(0,220,20):
    url = "https://movie.douban.com/subject/34812928/comments?start={}&limit=20&status=P&sort=new_score".format(offset)
    res = requests.get(url,headers= headers)
    # print(res.text)
    soup = BeautifulSoup(res.text,'lxml')
    time.sleep(2)
    for comment_item in soup.select("#comments > .comment-item"):
        try:

            data_item = []
            avatar = comment_item.select(".avatar a img")[0].get("src")
            name = comment_item.select(".comment h3 .comment-info a")[0]
            rate = comment_item.select(".comment h3 .comment-info span:nth-child(3)")[0]
            date = comment_item.select(".comment h3 .comment-info span:nth-child(4)")[0]
            comment = comment_item.select(".comment .comment-content span")[0]
            # comment_item.get("div img").ge
            data_item.append(avatar)
            data_item.append(str(name.string).strip("\\t"))
            data_item.append(str(rate.get("class")[0]).strip("allstar").strip('\\t').strip("\\n"))
            data_item.append(str(date.string).replace('\\n','').strip('\\t'))
            data_item.append(str(comment.string).strip("\\t").strip("\\n"))
            data_json ={
                'avatar':avatar,
                'name': str(name.string).strip("\\t"),
                'rate': str(rate.get("class")[0]).strip("allstar").strip('\\t').strip("\\n"),
                'date' : str(date.string).replace('\\n','').replace('\\t','').strip(' '),
                'comment': str(comment.string).strip("\\t").strip("\\n")
            }
            if not (collection.find_one({'avatar':avatar})):
               print("data _json is {}".format(data_json))
               collection.insert_one(data_json)
            f.write('\\t'.join(data_item))
            f.write("\\n")
        except Exception as e:
            print(e)
            continue

豆瓣爬取时需要记得加上 cookie 和 User-Agent，否则不会有数据为空，

为了后面数据可视化提取方便，本文用的是 Mongodb 作为数据存储，共有211 条数据，主要采集的数据字段为 avatar ， name 、 rate 、 date 、 comment ，分别表示用户头像、用户名字、星级、日期，评论；结果见 图3 ；