即不充值影视Vip,也不去电影院,为何Python爬虫师是这种人?
Posted q1613161916
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了即不充值影视Vip,也不去电影院,为何Python爬虫师是这种人?相关的知识,希望对你有一定的参考价值。
![技术分享图片](https://image.cha138.com/20210705/b2118cc0ed1d4c07a2a03b71577395f6.jpg)
Python多线程爬取电资源的迅雷下载地址,可以再写一个迅雷下载程序进去,不过不建议这样,因为这样所占的内存太大了。
也许有些对Python爬虫并不是很了解的朋友,来此看小编的博文得不到收获,那么我先介绍一下爬虫的原理。
无数的网页地址(url)编织成一张网,称之为网络。爬虫工作时会精心选取一些URL作为起点,从这些起点出发,抓取并解析所抓取到的页面,将页面中所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环,直到获取你想得到的所有的信息。
![技术分享图片](https://image.cha138.com/20210705/be61ee70e67148a6ae36373fb2c4b9d7.jpg)
此Python爬虫程序实现第一步,分析电影天堂网站的首页结构。
![技术分享图片](https://image.cha138.com/20210705/b64263bae2494708a7d1f8bbf59c5724.jpg)
解析首页地址 提取分类信息
![技术分享图片](https://image.cha138.com/20210705/d51c465d24754106b98ecde95c327557.jpg)
在此函数中,第一步就是把网页的html源码下载下来,由XPath解析出其中的菜单分类信息,并创建相应的文件目录。
![技术分享图片](https://image.cha138.com/20210705/095e5223e66646fc89822d76edce4d0e.jpg)
解析每个分类的主页
![技术分享图片](https://image.cha138.com/20210705/8a48d99628474d8793a80eeb19190794.jpg)
打开所有分类的首页可以看到全部有一个相同的结构,首先解析出包含资源URL的节点,然后将名称和URL提取出来。
![技术分享图片](https://image.cha138.com/20210705/ab85111c6e06494099ed68655a2d4521.jpg)
解析资源地址保存到文件中
![技术分享图片](https://image.cha138.com/20210705/4fe4fa24a4ef41e191a8595b707a0a3e.jpg)
把提取出来的信息保存到一个文件夹中即可,为了能够提高爬虫程序的运行效率,利用了Python多线程进行抓取,在此为所有的分类主页各开辟了一个线程,极大地提升爬虫的效率。
![技术分享图片](https://image.cha138.com/20210705/f8e5ea98463a43b1a0ef2951782d8ad6.jpg)
爬取的结果
文件夹分类
![技术分享图片](https://image.cha138.com/20210705/0637838b188d487bb211c679fe8b9808.jpg)
文本地址与对应的电影名称
![技术分享图片](https://image.cha138.com/20210705/31004c126d5744f0a33f10fbb0c4d3bb.jpg)
打开后得到文本地址
![技术分享图片](https://image.cha138.com/20210705/b3dc70e11a41485f8478c7e208ad6485.jpg)
Python全部代码
![技术分享图片](https://image.cha138.com/20210705/22e21e2da2b64664b611ef021dc42b29.jpg)
但是我还是得说一声,爬虫的核心为爬取所能看到的东西,就是说别人没有公布的是不能看到的。要充值影视VIP才可以爬取VIP电影,这点是没法改变的,我们能做的只有借一个账号,一次性爬取完保存。
![技术分享图片](https://image.cha138.com/20210705/75f241ef0e6149bb9b5ed9397ffdd7cf.jpg)
以上是关于即不充值影视Vip,也不去电影院,为何Python爬虫师是这种人?的主要内容,如果未能解决你的问题,请参考以下文章