还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!

Posted 666fx

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!相关的知识,希望对你有一定的参考价值。

郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果,以及法律责任,均由个人承担!!!

技术分享图片

 

在本次项目当中,我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com,它的结构简洁,运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求,如果网速跟的上,可以启动多线程请求,以达到更快的爬取速度,具体的配置方法见 [启动前配置]。

环境、架构

  • 开发语言: Python2.7
  • 开发环境: MacOS系统、4G内存
  • 数据库: MongoDB
  • 主要使用 scrapy 爬虫框架
  • 从Cookie池和UA池中随机抽取一个加入到Spider
  • start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装MongoDB,并启动,不需要配置
  • 安装Scrapy
  • 安装Python的依赖模块:pymongo、json、requests

根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

技术分享图片

 

技术分享图片

 

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

  • video_title:视频的标题,并作为唯一标识.
  • link_url:视频调转到PornHub的链接
  • image_url:视频的封面链接
  • video_duration:视频的时长,以 s 为单位
  • quality_480p: 视频480p的 mp4 下载地址

代码:GitHub:xiyouMc/WebHubBot

技术分享图片

 

以上就是本文的全部内容了,由于代码过长,所以只给了链接,希望大家多多包涵,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料,或者需要Python环境的老铁可以加群571799375,群里有免费发送给大家!(Python学习资料是2018年最新版)

本文来自网络,如有侵权,请联系小编删除!

 

以上是关于还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!的主要内容,如果未能解决你的问题,请参考以下文章

Python最简单的图片爬虫,20行代码带你爬遍整个网站

手把手带你爬取百度美女图片,Python练手项目!

手把手带你爬取小姐姐私房照,准备好你的纸!

什么是Python网络爬虫?带你爬向顶峰

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)

都说抖音是毒品软件?我用Python爬取了里面的小视频!