爬虫个人总结
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫个人总结相关的知识,希望对你有一定的参考价值。
刚开始选择爬虫是感觉比开发简单,那时候Django和flask觉得太难,就走爬虫这条路,但现在来说发现越来越难,简直不是人干的事,一入爬虫深似海!我将自己的心声写成笔记分享出来,想入爬虫坑的慎重。
现在分为web端和APP端:
web端返回格式,有json,html等格式,
状态常见的有两种,get和post,有些加入headers和data就能请求出来
难点:UA检测,频率限制,IP封禁,登录限制,动态加载,参数加密(js逆向),验证码,字体反爬,css反爬等从易到难
app端基本都是http、https协议,返回格式大部分都是json,相对于web端返回格式更规整,也好抓取些。
难点:app逆向,app脱壳,参数加密,破解各种签名、证书等等
想搞会app的这些反爬得先掌握java编程,安卓编程,C这些语言,至少得能看懂语法
从入门到全栈,难度可想而知
最重要的一点大家都知道,爬虫这个岗位属于灰色边缘层级,岗位也不多,懂得都懂,能转开发或者其他的都可以
以上是关于爬虫个人总结的主要内容,如果未能解决你的问题,请参考以下文章