pyspider爬虫框架
Posted Vizier
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspider爬虫框架相关的知识,希望对你有一定的参考价值。
特点:
去重处理,结果监控,多进程处理,pyquery提取,错误重试,webUI管理,代码简洁,JS渲染
安装:
anaconda里边没搜到pyspider,所以手动安装
查看pyspider的命令:
启动pyspider所有组件:
在启动之前,要先安装phantomjs浏览器,因为pyspider组件中有phantomjs组件。
下载地址:http://phantomjs.org/download.html。安装之后,配置环境变量(phantomjs.exe所在路径):
之后,pyspider all命令开启pyspider所有组件:
发现发生错误:
ValueError: Invalid configuration:
- Deprecated option \'domaincontroller\': use \'http_authenticator.domain_controller\' instead.
错误说,domaincontroller被弃用,建议用http_authenticator.domain_controller代替。
原因是因为WsgiDAV发布了版本 pre-release 3.x。
解决方法如下:
在安装包中找到pyspider的资源包,然后找到webui文件里面的webdav.py文件打开,修改第209行即可。
把
\'domaincontroller\': NeedAuthController(app),
修改为:
\'http_authenticator\':{
\'HTTPAuthenticator\':NeedAuthController(app),
},
然后再执行pyspider all就能够通过http://localhost:5000打开页面了。
(原文:https://blog.csdn.net/qq_37253540/article/details/88196994 )
此时webui组件开启成功,在端口5000上,则在浏览器中输入http://localhost:5000打开pyspider的webui界面。
点击create创建一个项目。之后,右边是编辑器,左边是请求的参数
以上是关于pyspider爬虫框架的主要内容,如果未能解决你的问题,请参考以下文章