爬虫框架-crawler

Posted 2021-04-04 AllTests

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫框架-crawler相关的知识，希望对你有一定的参考价值。

第一时间关注技术干货！

crawler

目录

1、简介
2、安装部署
3、框架说明
4、使用框架

1、简介

crawler采用requests+lxml的方式进行爬虫，爬取内容和url采用XPath方式一致（关于XPath可参考章节）。

GitHub网址：https://github.com/shuizhubocai/crawler

requests是Python的一个优秀第三方库，适合于人类使用的HTTP库，封装了许多繁琐的HTTP功能，极大地简化了HTTP请求所需要的代码量。

lxml是Python的一个解析库，支持html和XML的解析，支持XPath解析方式，而且解析效率非常高。

2、安装部署

在Windows环境（64位）下Python版本为3.6.5。

1、打开官方网址进行下载，下载完成为crawler-master.zip文件。

爬虫框架-crawler

2、解压文件到指定目录（例如D:crawler）。

爬虫框架-crawler

3、安装目录下，命令行运行pip install -r requrements.txt安装框架所依赖的库文件。

requrements.txt文件内容：

certifi==2018.4.16

chardet==3.0.4

idna==2.7

requests==2.19.1

urllib3==1.23

4、安装lxml，版本号为4.2.5。

下载指定版本，cp36代表Python 3.6的版本，win_amd64代表64位的系统，所以需要选择正确，否则安装过程会报错平台不匹配。

爬虫框架-crawler

下载完成后开始安装lxml，在命令行中进入安装文件所在路径输入命令即可。

pip install lxml-4.2.5-cp36-cp36m-win_amd64.whl

3、框架说明

1、crawler.py文件：

Download类：页面下载器

Parser类：页面解析器

Output类：导出数据到HTML

Scheduler类：爬虫调度器

2、modulesuseragent目录下的chrome.py、firefox.py等为浏览器代理。

3、data.html将爬取的数据导入到此文件里。

爬虫框架-crawler

4、使用框架

如图所示：要获取的帖子标题。

爬虫框架-crawler

如图所示：获取1-10页。

爬虫框架-crawler

1、修改脚本（crawler.py文件）。

（1）修改Parser类，getDatas方法的html.xpath值。

//tbody[contains(@id,'normalthread')]/tr/th/a[3]

爬虫框架-crawler

如图所示：使用Firefox+FirePath进行调试定位。

爬虫框架-crawler

（2）修改Parser类，getUrls方法的html.xpath值。

//span[@id='fd_page_bottom']/div//a[not(@class)]//@href

爬虫框架-crawler

如图所示：使用Firefox+FirePath进行调试定位。

爬虫框架-crawler

（3）实例化

爬虫框架-crawler

2、执行脚本（crawler.py文件）。

安装目录下，命令行运行python crawler.py

3、查看爬取结果。

脚本执行完成后，在安装目录下会自动生成data.html文件。

爬虫框架-crawler

爬虫框架-crawler

「爬虫框架crawler 」

即可获得全部资源！

如果您觉得文章还不错，请点赞、分享、在看、收藏一下，因为这将是我持续输出更多优质文章的最强动力！

没有关注的小伙伴，扫描下方二维码，获取更多精彩！

也可以在下方【写留言】进行留言讨论哦！期待！

扫码关注

获取更多精彩

AllTests

爬虫框架-crawler

爬虫框架-crawler

扫描作者微信，备注「交流群」，拉你进群交流！

（谢绝广告党，非诚勿扰！）

- End -

告诉大家你也在看哦！

以上是关于爬虫框架-crawler的主要内容，如果未能解决你的问题，请参考以下文章

爬虫，有啥框架比httpclient更快

开发网络爬虫应该如何选择爬虫框架？

开源爬虫框架优缺点盘点

开源爬虫框架各有什么优缺点？

解析3类开源爬虫框架的优缺点

scrapy 爬虫怎么在程序里把爬虫停止