爬虫-01

Posted 2021-02-01 ghauoa

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫-01相关的知识，希望对你有一定的参考价值。

Python爬虫-01

1.爬虫是什么

维基百科介绍：網路蜘蛛（Web spider）也叫网络爬虫（Web crawler）1，蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种「自動化瀏覽網路」的程式，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

2.入门必须

python的基础使用：基于python3.6.5版本
正则表达式：在解析网页的时候，偶尔会遇到使用正则表达式的情况，你至少要知道什么叫做正则表达式。
html:简要的HTML文档结构。推荐http://www.w3school.com.cn/
HTTP(超文本传输协议）:推荐图解HTTP,下载地址http://down.51cto.com/data/1979859
数据库：需了解SQL&NoSQL的概念。

3.爬虫架构

架构组成

技术分享图片

URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬取的url给网页下载器，防止重复抓取以及循环抓取。
网页下载器（urllib）：爬取url对应的网页，存储成字符串，传送给网页解析器。
网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充url到URL管理器。

URL管理器

技术分享图片

网页下载器（urllib）

将互联网上URL对应的网页下载到本地的工具。python网页下载器有urlilib和requests。
urllib支持功能：1.支持直接url下载；2.支持向网页直接输入的数据；3.支持需要登陆网页的cookie处理；4.需要代理访问的代理处理。python 3.x 以上版本揽括了 urllib2，把urllib2 和 urllib 整合到一起，只有 import urllib，同时用urllib.request 模块代替 urllib2。

并且引入模块变成一个，只有 import urllib

网页解析（BeautifulSoup）

为了实现解析器，可以选择使用正则表达式、html.parser、BeautifulSoup、lxml等，这里我们选择BeautifulSoup。
其中，正则表达式基于模糊匹配，而另外三种则是基于DOM结构化解析。
技术分享图片

总结：介绍爬虫的概念，基础知识，同时还对python架构组成做了汇总，接下来正式进入爬虫的世界！！！

以上是关于爬虫-01的主要内容，如果未能解决你的问题，请参考以下文章