从开始学习爬虫到真正赚钱只用了一个月——一个普通大专生的逆袭之路

Posted 网易在职程序猿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从开始学习爬虫到真正赚钱只用了一个月——一个普通大专生的逆袭之路相关的知识,希望对你有一定的参考价值。

前言

我毕业六年了,但与技术和 Python 相关的工作经验也就两年。今天我想跟大家分享自己转行的故事,希望能够鼓励那些跟我一样的朋友共同前行。

我们将会聊到我个人的经历和入行故事,个人的技术成就,讨论快速学习的方法,最后推荐一些学习资源。

个人简介和经历

在2020年以前,我并不是一个专业的研发,工作内容甚至与技术没有太多关联。

我所学的专业是“软件开发”,但大专念书的时候没有好好学习,导致毕业后四处碰壁。

毕业后的第一年辗转进入了一个互联网金融企业,在技术部里面担任最小的小弟。随着公司的发展和人数增加,我从小弟变成了小哥,后来成为了连接技术部和公司高层的纽带。

从这个时候起,我离技术越来越远,后来慢慢转到了运营岗,并通过努力从运营小弟变成了运营小哥。

互联网金融倒闭和跑路潮爆发,我感到行业岌岌可危,而且我觉得就我这点运营水平也蹦哒不起来(说一事无成也不为过)。恰好那段时间我了解到 Python 语言,了解到爬虫对于企业运营和发展的重要性,还有 Python 易学的特点。

于是我下班后看 Python 的入门教程,并根据网上文章尝试运行自己编写的代码。念书的时候,学校教的是 C 语言、C# 和 php,但我都没有学会。唯独这一次,我感觉我能够学会 Python。

在家看网上的 Python 入门文章和入门视频,每天都挤出时间来学习,跟着教程学习了大概1个月,我就尝试自己接一些小需求来做,例如爬取一些公开数据、编写 Python 程序等。那时候两三天才能完成任务,得到的报酬通常是 30~300,有时候甚至靠回答群友的问题领几块钱小红包。

实践是检验真理的唯一办法,我不去实操就不会知道自己的技术水平到了哪一个层次,就不会查漏补缺,接兼职就是我磨炼自己技术水平的方法之一。

后来随着时间的推移,大概过了7个月,我觉得我可以算得上初级爬虫工程师了,接的都是1000以上的兼职。但是接兼职已经无法满足自己的技术增长需要了,于是我在智联还有前程无忧找了一些招爬虫或 Python 研发的公司,投了简历。三天内,接到了 5 个面试,然后也顺利的找到了一份爬虫组长的工作。

工作期间,我们爬虫组的任务就是完成技术负责人分配的数据爬取任务,目标分为网站和 APP两大类。我们公司是体育行业,所以数据的变动是常有的事,这就要求爬虫组能够高频的爬取数据。

为了省事,我参考 Scrapyd 和 Celery,用 Django 编写了一套支持 Crontab 规则的调度平台,这样我们编写的爬虫就可以集中在这个调度平台上进行管理。

在反爬虫方面,对于那些用 javascript 保护数据的网站,我们最开始采取的是 Selenium 或者 Splash 这种自动渲染工具来应对。但后来考虑到高频、时效性和资源占用等问题,便硬着头皮去解目标网站中的 JS 算法,再用 Python 模拟实现同样的算法。

这样,将爬虫的爬取速度和资源占用都调整到了最优的状态。

我认为我进入了技术领域,就应该踏踏实实的呆在这个领域里,想办法扎根。

快速学习的方法

对于转行的朋友,或者刚接触 IT 技术的朋友来说,最重要的是两件事:

  • 如何保持专注,能够坚持
  • 找到快速学习的方法

第一件事其实并不难,保持专注并能够坚持的原因通常有二:有经济收入或者极大的兴趣爱好。纵观我的成长经历,其实这也是我坚持下来的原因。学习之初,完全是出于兴趣和转行的压力。

在前三个月的阶段,有一些小小的收入也是支撑我继续前行的主要原因。第二件事,找到快速学习的方法。我可以说,我的进步速度非常快,而且很稳固。

我深深的知道**“浮沙之上难驻高台”**的道理,所以我在学习的过程中,通过写文章来巩固所学,并且我只专注于一个领域(爬虫)。Python 可以发展的方向非常多,例如 WEB、爬虫、数据分析和深度学习,我自知想要扎根就必须专注一个领域。

我从最初的网络请求、网页解析到数据存储,爬虫部署调度,再到异步、多线程多进程、去重和增量,甚至是反爬虫的研究,都属于爬虫这个领域。

为了保持专注,我改变了我的作息时间,从原来的“早上八九点起床,凌晨一两点睡”改成了“早上六七点起,晚上十一点睡”。周末亦是如此,早睡早起使我有充沛的精力保持工作和学习。

选好某个领域,并保持足够的时间后,能够让人快速进步的因素还有:读源码,造轮子。

读源码可以让我们从更高的的角度理解程序的设计,并学到很多平时难以见到的骚操作。而造轮子,则是考验我们将知识转换成代码的能力。

我读/研究过源码的项目有:

  • Scrapyd
  • Scrapy
  • Celery
  • Gerapy
  • SpiderKeeper
  • SpiderWeb
  • WebSockets
  • WebsocketClient
  • Parsel
  • apscheduler
  • Job_Spider,Rust 语言编写的定时任务库

这里有个建议,读源码、查资料的时候我们必定会用到搜索引擎,搜索引擎列出的文章并不一定是准确的。有些文章甚至是缺头缺尾,所以最好是直接翻官方文档或者找一些知名作者写的文章来学习。

学习资源推荐

学习资源是学习质量和速度的保证,因此找到高质量的学习资源对我们来说也是非常重要的。以下列出的学习资源不分排名,都是好资源:

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。


四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。


这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码【免费获取】。

结语

我不管你是在互联网行业的哪一个岗位,你应该一直把自己当成一个学生。这比大多数职业的要求更高,因为这一行总在变化。没有一个开发人员可以知道所有事情的全部内容,他们这一分钟这样做,下一分钟就有变化发生,他们就必须学习更多。如果你骄傲自满,停止阅读、学习,你必然会落后。即便你有一份不需要学习任何新东西的工作,一旦你失去了那份工作(这并非不可能发生),你会远远落后。所以即使有这样的工作,我也建议你边工作边学习。

不管你喜欢那种语言、框架、库,你都要及时更新你的知识。如果你的职位需要的只是旧知识,这也是可理解的,因为很多领导倾向于认为如果公司还没没落,那就没必要修复。所以你仍然会发现有些团队用着过时的、不受支持的技术,只因为该技术还能运行。如果你边工作边学习这方面的新东西,那你就可以向团队展示更快、更高效、更简单的新技术是可能的。你或许能够说服他们更新技术、改善公司。

无论是新开发人员,还是经验丰富的老手,我都希望这些建议能够帮助到你们。

以上是关于从开始学习爬虫到真正赚钱只用了一个月——一个普通大专生的逆袭之路的主要内容,如果未能解决你的问题,请参考以下文章

从3k到3w,一名普通软件测试员真正的赚钱路线图…

从3k到3w,一名普通软件测试员真正的赚钱路线图…

学python要多久

个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列

个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列

如何快速赚钱:Python爬虫