搭建PySpider爬虫服务

Posted ztca

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搭建PySpider爬虫服务相关的知识,希望对你有一定的参考价值。

1.环境准备

前置环境部署

在开始部署前,我们需要做一些前置准备 。

yum 更新

技术分享图片

等待时间较长

安装开发编译工具

技术分享图片

安装依赖库

技术分享图片

升级pip

技术分享图片

 

2.

部署 mariadb

由于 CentOS 7 中 mysql 数据库已从默认的程序列表中移除,我们使用 mariadb 代替。

安装 mariadb

技术分享图片

启动 mariadb 服务

技术分享图片

设置 root 密码

默认的root用户密码为空,你可以使用以下命令来创建 root 用户的密码:

检查是否安装成功

现在你可以尝试通过以下命令来连接到 Mysql 服务器 
 
技术分享图片

 

3.部署redis

 下载、解压安装包

下载安装包

技术分享图片

 

 

解压安装包

技术分享图片

 

移动解压包到 /usr/local 内

技术分享图片

 

编译安装

技术分享图片

技术分享图片

技术分享图片

设置 redis 配置

设置配置文件路径

技术分享图片

 

技术分享图片

 

修改 /etc/redis/redis.conf 文件的 daemonize 配置项为如下:

技术分享图片

启动 redis 服务

技术分享图片

 

4.

部署 pyspider

安装依赖

技术分享图片

技术分享图片

技术分享图片

安装 pyspider

技术分享图片

配置 pyspider

首先创建配置目录
技术分享图片

 

 然后 /etc/pyspider 目录下创建 pyspider.conf.json,参考下面的内容。

技术分享图片

其中 mysql 配置中的 root 为您 mysql 的用户名, root: 后面的为您刚设置的密码。

 

 webui 配置中的 username 及 password 为您访问 WebUI 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth 设为 false 即可。

 

启动服务

技术分享图片

如果一切正常,现在访问 http://IP:5000,您应该可以看到 pyspider dashboard 的首页了。

技术分享图片

服务能够正常启动后,我们需要让它能够在后台运行,您可以通过以下命令让服务在后台运行

技术分享图片

此时您可以访问 http://IP:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 网上资料

 

 

 

以上是关于搭建PySpider爬虫服务的主要内容,如果未能解决你的问题,请参考以下文章

pyspider爬虫框架

Python爬虫进阶二之PySpider框架安装配置

我们的爬虫从pyspider开始说起

Python爬虫框架--pyspider初体验

pyspider和pyquery总结

Pyspider爬虫简单框架