大专毕业半路学Python爬虫，学到什么程度可以去找工作了

Posted 2022-12-14 程序员朱鹏

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大专毕业半路学Python爬虫，学到什么程度可以去找工作了相关的知识，希望对你有一定的参考价值。

首先要明确一点，python只不过是一个工具，学会了使用工具不代表你就能找到工作，要有用工具处理问题的能力才符合工作需求。

就像爬虫工程师，java也能实现，想要靠你学的python找到工作，实践经验才是加分项！

从招聘网站整理的爬虫工程师需要达到的要求：

【初级爬虫工程师】
① web 前端的知识： html、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等；
② 正则表达式：能提取正常一般网页中想要的信息，比如某些特殊的文字， 链接信息， 知道什么是懒惰， 什么是贪婪型的正则；
③ 会使用 XPath 等获取一些DOM 结构中的节点信息；
④ 知道什么是深度优先， 广度优先的抓取算法， 及实践中的使用规则；
⑤ 能分析简单网站的结构， 会使用urllib或requests 库进行简单的数据抓取。

【中级爬虫工程师】
① 了解什么是HASH，会简单地使用MD5，SHA1等算法对数据进行HASH一遍存储
② 熟悉HTTP，HTTPS协议的基础知识，了解GET，POST方法，了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等
③ 能设置user-agent进行数据爬取，设置代理等
④ 知道什么是Request，什么是response，会使用Fiddler等工具抓取及分析简单地网络数据包；
⑤ 对于动态爬虫，要学会分析ajax请求，模拟制造post数据包请求，抓取客户端session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。
⑥ 对于一些难搞定的网站学会使用phantomjs+selenium抓取一些动态网页信息
⑦ 并发下载，通过并行下载加速数据爬取；多线程的使用。

【高级爬虫工程师】
① 能够使用Tesseract，百度AI，HOG+SVM，CNN等库进行验证码识别。
② 能使用数据挖掘技术，分类算法等避免死链。
③ 会使用常用的数据库进行数据存储，查询。比如mongoDB，redis；学习如何通过缓存避免重复下载的问题。
④ 能够使用机器学习的技术动态调整爬虫的爬取策略，从而避免被禁IP封禁等。
⑤ 能使用一些开源框架scrapy，scrapy-redis等分布式爬虫，能部署掌控分布式爬虫进行大规模数据爬取。

爬虫技能掌握简要对照：

【初级】
1）Python语言基础

2）相关的请求库
urllib、requests、selenium（动态网页用得上）

3）相关的解析库
BeautifulSoup、XPath、PyQuery、Re正则表达式

4）相关的数据库
mysql、MongoDB

【中级】
1）Ajax（能通过Ajax接口获取数据）

2）了解基本的 javascript

3）Puppeteer（基于JS的爬虫框架，可直接执行JS）

4）Pyppeteer（需要python异步知识）

5）多任务基础 & 爬虫提速
多进程、多线程、协程

6）抓取工具
fiddler、Charles、chrome、firefox

7）自动化爬取（爬App）
adb工具、Appium

8）Splash（动态渲染页面的抓取）

9）mitmproxy（中间人代理工具）

【高级】
1）爬虫框架
Scrapy、Pyspider

2）消息队列相关
RabbitMQ、Celery、Kafka

3）Redis 数据库

4）Scrapy
Redis（scrapy的redis组件）、Redis-BloomFilter（scrapy的布隆过滤器）、Cluster（分布式爬虫框架）

5）应对反爬的技术
验证码破解、IP代理池、用户行为管理
分流技术：cookies池、token池、sign池

【更高一级】
JS逆向、App逆向、运维、智能化爬虫
回到问题，针对python爬虫的面试一般会涉及到以下几个部分：

回到问题，针对python爬虫的面试一般会涉及到以下几个部分：

1、基本的编码基础Python

基础的数据结构你得会吧，数据名字和值得对应（字典），对一些url进行处理（列表）等等，爬虫给人的感觉好像对Python编程的知识要求并不高，确实，搞懂基本数据结构、语句，会写写函数好像就OK了，自己业余玩玩还行。

如果要找工作面试爬虫工程师，这远远不够，不要小瞧了爬虫工程师对编程基本功的要求，编程基本功要扎实。除了基本的函数，Python的高级特性、面向对象编程、多线程、装饰器都要熟悉。

编程的功底，以及对语言的理解，从某种程度上可以看出学习能力和发展潜力。

2、HTTP知识

必备技能，要爬的是网页，所以必须要了解网页。

首先html文档的解析方法要懂，比如子节点父节点，属性这些。我们最终看到的网页是被浏览器处理了的，原始的网页是由很多标签组成的。

处理最好使用html的解析器，如果自己用正则匹配的话坑会很多，我个人xpath用得多，跨语言，表达比较好，但是呢也有缺点，正则、逻辑判断有点别扭。

HTTP协议要理解；HTTP协议本身是无状态的，那么“登录”是怎么实现的？这就要求去了解一下session和cookies了。

GET方法和POST方法的区别；

3、浏览器要熟练