郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果,以及法律责任,均由个人承担!!!
在本次项目当中,我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com,它的结构简洁,运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求,如果网速跟的上,可以启动多线程请求,以达到更快的爬取速度,具体的配置方法见 [启动前配置]。
环境、架构
- 开发语言: Python2.7
- 开发环境: MacOS系统、4G内存
- 数据库: MongoDB
- 主要使用 scrapy 爬虫框架
- 从Cookie池和UA池中随机抽取一个加入到Spider
- start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
- 并支持分页爬取数据,并加入到待爬队列。
使用说明
启动前配置
- 安装MongoDB,并启动,不需要配置
- 安装Scrapy
- 安装Python的依赖模块:pymongo、json、requests
根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
启动
python PornHub/quickstart.py
运行截图
数据库说明
数据库中保存数据的表是 PhRes。以下是字段说明:
PhRes 表:
- video_title:视频的标题,并作为唯一标识.
- link_url:视频调转到PornHub的链接
- image_url:视频的封面链接
- video_duration:视频的时长,以 s 为单位
- quality_480p: 视频480p的 mp4 下载地址
代码:GitHub:xiyouMc/WebHubBot
以上就是本文的全部内容了,由于代码过长,所以只给了链接,希望大家多多包涵,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。
有需要Python学习资料,或者需要Python环境的老铁可以加群571799375,群里有免费发送给大家!(Python学习资料是2018年最新版)
本文来自网络,如有侵权,请联系小编删除!