爬虫-01

Posted ghauoa

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫-01相关的知识,希望对你有一定的参考价值。

Python爬虫-01

1.爬虫是什么

维基百科介绍:網路蜘蛛(Web spider)也叫网络爬虫(Web crawler)1,蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

2.入门必须

  • python的基础使用:基于python3.6.5版本
  • 正则表达式:在解析网页的时候,偶尔会遇到使用正则表达式的情况,你至少要知道什么叫做正则表达式。技术分享图片
  • html:简要的HTML文档结构。推荐http://www.w3school.com.cn/
  • HTTP(超文本传输协议):推荐图解HTTP,下载地址http://down.51cto.com/data/1979859
  • 数据库:需了解SQL&NoSQL的概念。

3.爬虫架构

架构组成

技术分享图片

  • URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器,防止重复抓取以及循环抓取。
  • 网页下载器(urllib):爬取url对应的网页,存储成字符串,传送给网页解析器。
  • 网页解析器(BeautifulSoup):解析出有价值的数据,存储下来,同时补充url到URL管理器。

URL管理器

技术分享图片

网页下载器(urllib)

将互联网上URL对应的网页下载到本地的工具。python网页下载器有urlilib和requests。
urllib支持功能:1.支持直接url下载;2.支持向网页直接输入的数据;3.支持需要登陆网页的cookie处理;4.需要代理访问的代理处理。python 3.x 以上版本揽括了 urllib2,把urllib2 和 urllib 整合到一起,只有 import urllib,同时用urllib.request 模块 代替 urllib2。

并且引入模块变成一个,只有 import urllib

网页解析(BeautifulSoup)

为了实现解析器,可以选择使用正则表达式、html.parser、BeautifulSoup、lxml等,这里我们选择BeautifulSoup。
其中,正则表达式基于模糊匹配,而另外三种则是基于DOM结构化解析。
技术分享图片


总结:介绍爬虫的概念,基础知识,同时还对python架构组成做了汇总,接下来正式进入爬虫的世界!!!

以上是关于爬虫-01的主要内容,如果未能解决你的问题,请参考以下文章

Python 开发轻量级爬虫01

爬虫-01

Python_01_IP代理池_实现代理池的爬虫模块的及具体爬虫

python静态网页爬虫实例01

爬虫基础(理论基础)--01

Python_01_IP代理池_实现代理池的爬虫模块的执行方法