小白学 Python 爬虫：开篇

Posted 2020-11-22 极客挖掘机

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了小白学 Python 爬虫：开篇相关的知识，希望对你有一定的参考价值。

人生苦短，我用 Python

引言

各位同学大家好，好久不见（可能只有一两天没见：囧）~~~

先讲一件事情，昨天为啥没更新。

emmmmmmmmm，当然是因为加班啦，快到年底了，公司项目比较忙，最近的更新频率会有下降，请各位海涵。

废话不多说，开始今天的正题，从题目大家应该已经猜到了，小编要开始更新一个新的系列《小白学 Python 爬虫》，介于大家水平参差不齐，建议没有 Python 基础第一次接触的同学先看下小编之前更新的《小白学 Python 系列》，大致了解下 Python 的语法规则以及一些基础用法。

先自己吹一波水，这个系列小编计划做成长期更新系列，目前 Python 爬虫涉及到的第三方的类库有些多，还会有很多有关 web 编程方面的基础知识，因面向的群体主要是小白，这些内容都需要一一介绍，这会是一个大的系列。额，远超之前的 Python 基础。

额，忘了件事儿，再加一句题外话，最近公众号后台留言有点略多，很多同学的问题来不及回复就被留言冲的看不到了，这里请大家有问题可以添加小编的个人微信：allen_6174（放心加，这个是小编的个人生活微信号，和工作号是分开的）。

算了，顺便再打个广告吧：本爬虫系列文章后续将于公众号首发，个人博客站次日同步，第三方博客平台不定期同步，泥萌要不要关注我一下呢？

不管是作为程序员还是小白，对爬虫这个词应该都不陌生，毕竟最近也发生了很多事情，很多人因为某些事情都进去了，具体情况我就不提了，容易被和谐。有想知道的同学可以翻一翻我之前公众号转的一篇文章《只因写了一段爬虫，公司200多人被抓！》。最近的网络报道此类的新闻还有很多。

在正式内容开始之前，提醒各位读者敬畏法律，热爱生活。

老规矩，先百度一波看看百度释义：

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

讲点接地气的就是我们把平时使用的网络看成是一张大蜘蛛网，每个站点看做是这张网上面的一个一个的节点，爬虫好比是一只蜘蛛，在这张网上面按照一定的或者已经设计好的路线，找到目标节点获取所需资源。

平时我们在上网的时候，看到一些感兴趣的网络资源，可以使用复制黏贴的方式将这些资源下载回来，比如看知乎的时候，一些回答很精彩的高赞回答，数据量小的时候，我们动动鼠标右键也就搞定了，但是如果这种数据量非常大，有时候可以大到超出你的想像，再用鼠标右键复制黏贴就有些捉襟见肘了。

上图是博主在用的鼠标，非广告，型号我就不贴了。

这时，我们就需要勤劳的爬虫出马了，爬虫这种“生物”，可以全天候24小时候不间断工作，只需提供必要的网络和电力，就可以一直勤劳的工作下去，让你解放双手，再也无需人工使用 CV 大法了。

可以看出，爬虫非常适合帮我们做两类事情：

想像一下，当老板让你搜索某类信息时，写一只勤劳的小爬虫，自己在旁边泡上一杯清茶，拿起手机开始愉快的玩耍，时不时的看这只爬虫有没有完成工作，这场景一下让我想起了万恶的资本家压榨劳动力。

本篇文章为各位同学介绍了爬虫的基本概念，让大家对爬虫有一个大致的了解，以便后续章节的学习。开胃菜吃完了，下一节我们就要开始吃大餐了哟，你准备好了吗？

以上是关于小白学 Python 爬虫：开篇的主要内容，如果未能解决你的问题，请参考以下文章