Spider-爬虫介绍
Posted black-rainbow
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spider-爬虫介绍相关的知识,希望对你有一定的参考价值。
零、爬虫准备工作
- 参考资料
- 《python网络数据采集》-- 图灵工业出版
- 《精通Python爬虫框架Scrapy》 -- 人民邮电出版社
- 【Scrapy官方教程】(http://scrapy-chs.readthedocs.io/zh_CN/0.24/into/tutorial.html)
- 【Python3网络爬虫】(http://blog.csdn.net/c406495762/article/details/72858983)
- 前端知识
- url
- http协议
- web前端(html,css,js)
- re,xpath
- xml
一、爬虫简介
- 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
- 两大特征
- 能按作者要求下载数据或者内容
- 能自动在网络上流窜
- 三大步骤:
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步内容
- 爬虫分类
- 通用爬虫
- 专用爬虫(聚焦爬虫)
- Python网络包简介
- Python2.x:urllib,urllib2,urllib3,httplib,httplib2,requests
- Python3.x:urllib,urllib3,httplib2,requests
- python2:urllib和urllib2配合使用,或者requests
- python3:urllib,requests
二、urllib
- 包含模块
- urllib.request:打开和读取ruls
- urllib.error:包含urllib.request产生的常见错误,使用try捕捉
- urllib.parse:包含即系url的方法
- urllib.robotparse:解析robots.txt文件
以上是关于Spider-爬虫介绍的主要内容,如果未能解决你的问题,请参考以下文章
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider)