用Python分分钟爬取豆瓣本周口碑榜,就是有这么秀!

Posted 666fx

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用Python分分钟爬取豆瓣本周口碑榜,就是有这么秀!相关的知识,希望对你有一定的参考价值。

平常在生活中,不知道大家是怎么找电影的,反正小编是通过电影本周口碑榜来找的,个人感觉通过这种方式找来的电影都挺不错的。既然提到口碑榜,不如我们来爬下豆瓣电影本周口碑榜上的电影吧,怎么爬嘞,当然是用我们的Python爬虫啦!下面开始简单的介绍如何写爬虫。

技术分享图片

 

在写爬虫前,我们首先简单明确两点:

1. 爬虫的网址;

2. 需要爬取的内容(数据)。

 

技术分享图片

 

 

技术分享图片

 

 

  1. 鼠标点击需要爬取的数据,这里我们点“看不见的客人”,如图所示。
技术分享图片

 

  1. 看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。
  2. 再看来最后一行代码中最“重要”的部分。
  3. ‘//td[@class=”title”]//a/text()’
  • //td :这个相当于指定是大目录;
  • [@class=”title”]:这个相当于指定的小目录;
  • //a :这个相当于最小的目录;
  • /text():这个是提取其中的数据。

爬虫介绍结束,看完你也该试试手了。

试试爬“即将上映”

技术分享图片

 

 

这个只需将最后一行代码改成

result=tree.xpath(‘//li[@class="title"]//a/text()‘)1

如图所示“即将上映”的电影就被你爬下来了。

是不是觉得爬虫真的很简单,已经完全学会了。然而现实中,爬虫会面临很多问题的,比如:

1. 页面规则不统一;

2. 爬下来的数据处理;

3. 反爬虫机制。

等等很多很多类似的各种问题,想要成为真的Python爬虫大神,还是得一步一步来的,饭要一口一口吃的嘛!

技术分享图片

 

 

以上就是本文的全部内容,希望对各位小伙伴们有所帮助!

写在最后:

有想学Python或者对Python感兴趣的老铁,可以加群571799375,群里有适合Python初学者学习的资料(2018最新版Python资料),免费送给大家!

本文来自网络,如有侵权,请联系小编删除!

以上是关于用Python分分钟爬取豆瓣本周口碑榜,就是有这么秀!的主要内容,如果未能解决你的问题,请参考以下文章

豆瓣近五年书籍榜单爬取流程

用python爬取豆瓣电影信息,输入类别和爬取页数,想怎么爬就怎么爬,哎就是玩!

用Python爬取豆瓣Top250的电影标题

爬取豆瓣热销书榜前250 生成.csv文件

Python3.6+jieba+wordcloud 爬取豆瓣影评生成词云

抓取猫眼热映口碑榜