Spider-爬虫介绍

Posted 2020-11-19 black-rainbow

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spider-爬虫介绍相关的知识，希望对你有一定的参考价值。

零、爬虫准备工作

参考资料
- 《python网络数据采集》-- 图灵工业出版
- 《精通Python爬虫框架Scrapy》 -- 人民邮电出版社
- 【Scrapy官方教程】（http://scrapy-chs.readthedocs.io/zh_CN/0.24/into/tutorial.html）
- 【Python3网络爬虫】（http://blog.csdn.net/c406495762/article/details/72858983）
前端知识
- url
- http协议
- web前端（html，css，js）
- re，xpath
- xml

一、爬虫简介

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
两大特征
- 能按作者要求下载数据或者内容
- 能自动在网络上流窜
三大步骤：
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步内容
爬虫分类
- 通用爬虫
- 专用爬虫（聚焦爬虫）
Python网络包简介
- Python2.x：urllib，urllib2，urllib3，httplib，httplib2，requests
- Python3.x：urllib，urllib3，httplib2，requests
- python2：urllib和urllib2配合使用，或者requests
- python3：urllib，requests

二、urllib

包含模块
- urllib.request：打开和读取ruls
- urllib.error：包含urllib.request产生的常见错误，使用try捕捉
- urllib.parse：包含即系url的方法
- urllib.robotparse：解析robots.txt文件

以上是关于Spider-爬虫介绍的主要内容，如果未能解决你的问题，请参考以下文章