IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？

Posted 2020-12-27 python6359

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？相关的知识，希望对你有一定的参考价值。

什么是爬虫？

百度百科：网络爬虫（又被称为网页，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取信息的程序或者脚本。

最近很多朋友问我，学习爬虫，学到什么程度可以去找工作呢？

这篇文章会说说我自己的心得体验，关于爬虫、关于工作，仅供参考

为什么那么多人选择学习爬虫？

一线城市（北京为例）

96.1%薪资是在10K以上，88.1%的人薪资是在10-30K，所以为什么说薪资非常客观了。

二线城市（成都为例）

暂且把目标定位初级爬虫工程师，简单列一下吧：

（必要部分）

（非必要，建议）

技术分享图片

随便看看知乎上的教程就可以入门了，就Python而言，会requests当然是不够的，还需要了解scrapy和pyspider这两个框架，scrapy_redis也是需要理解原理的。

最简单的拿拉钩来举例，搜索关键词，有30页，不要以为把这30页爬完就是全站爬取了，你应该想方法把所有数据全部爬下来。

什么办法，通过筛选缩小范围，慢慢来就OK了。

同时，每个职位还会有推荐职位，再写一个采集推荐的爬虫。

这个过程需要注意的是如何去重，Mongo可以、redis也可以

这个面试中肯定会被人问道，如：

那么怎么找项目呢？比如我要爬微博数据，去Github中搜索下，项目还算少吗？

常见的 UA、Refer等需要了解是什么东西，有些验证的ID如何产生的，是否必要；关于IP池这块我不了解，不多说，需要注意的是如何设计拉黑机制；模拟登陆也是必要的，可以研究下代码，或者提PR。

模拟登陆其实就是一步步的请求，保存cookie会话

很简单，给个任务，爬取知乎上所有问题。

你会如何思考并设计这个项目？

欢迎留言指出

以上是关于IT行业老程序员的经验之谈：爬虫学到什么程度可以找到工作？的主要内容，如果未能解决你的问题，请参考以下文章