还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！

Posted 2021-01-29 666fx

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！相关的知识，希望对你有一定的参考价值。

郑重声明：本项目旨在学习Scrapy爬虫框架和MongoDB数据库，不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果，以及法律责任，均由个人承担！！！

技术分享图片

在本次项目当中，我们将会用到PornHubBot项目，该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com，它的结构简洁，运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求，如果网速跟的上，可以启动多线程请求，以达到更快的爬取速度，具体的配置方法见 [启动前配置]。

环境、架构

开发语言: Python2.7
开发环境: MacOS系统、4G内存
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置
安装Scrapy
安装Python的依赖模块：pymongo、json、requests

根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

技术分享图片

技术分享图片

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表：

video_title:视频的标题,并作为唯一标识.
link_url:视频调转到PornHub的链接
image_url:视频的封面链接
video_duration:视频的时长，以 s 为单位
quality_480p: 视频480p的 mp4 下载地址

代码：GitHub：xiyouMc/WebHubBot

技术分享图片

以上就是本文的全部内容了，由于代码过长，所以只给了链接，希望大家多多包涵，喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料，或者需要Python环境的老铁可以加群571799375，群里有免费发送给大家！（Python学习资料是2018年最新版）

本文来自网络，如有侵权，请联系小编删除！

以上是关于还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！的主要内容，如果未能解决你的问题，请参考以下文章