科普|爬虫技术是如何改变我们生活的
Posted 智能前沿技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了科普|爬虫技术是如何改变我们生活的相关的知识,希望对你有一定的参考价值。
每当这个时候我就知道陶子又要抢回家的火车票了。
不知何时,每年都有那么几天,小采的朋友陶子总会心情焦虑,坐立不安,按他的话来说:“去火车站抢票是永远不可能去的,也就只能靠着抢票软件维持生活了。”这两年他换了不止数款抢票软件,可以说是抢票行家了。
作为家中独子,我很能理解他的感受。
但作为一个有梦想的运营喵,我不禁对这种抢票软件产生了浓浓的兴趣。
这分明代表着——“话题!!!”
今天我们就从抢票软件开聊,谈谈爬虫技术带给我们生活中哪些改变!
众所周知,抢票软件的背后,藏着无数个叫做“爬虫”的小东西
喏,它们长这样:
等等,好像有点不对劲,应该是这样的爬虫:
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫就像是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在互联网这栋四通八达的大楼里不知疲倦地爬来爬去。
现在我们的身边的网络处处都可见这些小可爱的影子,它们善恶不同,各怀心思,越是利益相关的地方,就越是布满了爬虫。
图片来源:云鼎实验室
在出行方面出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得被这样的人脸验证码支配的恐惧吗?
像这种“神坑”的验证码并不是为了为难我们这些老实本分买票的人的,正相反,它研发的目的就是为了阻止爬虫(也就是抢票软件)的点击。上面说过,爬虫是一个死板的东西,它只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
但是“道高一尺魔高一丈”,光凭这样显然是无法阻挡爬虫的脚步的,现在市面上盛行的各类抢票软件就是明证!
有一种东西叫做“打码平台”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
“12306”为什么不做措施防止采集呢?你可能会问。
你知道每年过年之前,12306 被点成什么样了吗?
公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
总结:所以不是不想防,而是防不胜防啊!,真是个悲伤的故事!
说完出行难,我们再来谈谈社交吧。
这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。
获得这些,能搞出什么骚操作呢?
“僵尸粉”的上班流程了解一下——你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。
更甚者,还可以利用这套流程发家致富:
1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。
2、我去找一个app开发公司,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条app的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。
3、我发出注册链接,然后没人点。。。
4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。
5、我躺在床上,笑眯眯地数着赚来的一万块钱。
(以上故事纯属虚构,如有雷同,具体操作也会更复杂,请勿随意模仿。)
再者,你平时点开的大众点评和美团等美食软件上的点评信息是真的吗?
答曰:部分是真,部分是假,真真假假谁又说得清呢?
造成这种情况的还是爬虫:
很多刚上点评的商户,信誉值不高,就会用爬虫来模拟留言、点赞,刷高自己的信誉值。
同理,淘宝、京东等电商用户也是如此。
所以,这些平台都对这种刷单行为深恶痛绝,因为一旦松懈平台的信誉值就完蛋了。
很多人做过网站,应该知道“权重值”的意思,那么怎么提升权重呢?
你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。
既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。
我就举个例子,随意搜索一个关键词,它排在前面的网址,有可能就是经过 SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。
所以才会有那么多的悲剧,百度医疗竞价排名害死人事件不知道的同学可以去了解一下。
SEO是一把双刃剑,它可以救人也可以害人,技术不分好坏,善恶只在掌握它们的人手上。
说了这么多,我猜你会有几个疑问
这个问题还真的不简单。
我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。
于是我又继续搜索,发现了几条司法解释:
未经授权爬取用户手机通讯录超过50条记录;
未经授权抓取用户淘宝交易记录超过500条;
未经授权读取用户运营商网站通话记录超过500条;
未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。
但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)
因此得出结论,只要不触碰禁区,爬虫并不违法。
举个例子:在排名第五的行政领域:
在中国,我们的信用体系还很不完善的情况下,骗子和老赖在犯罪后还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。这项服务大大减少了网络犯罪的犯罪率。
所以,最后,我想说技术无罪,我认为善的定义就是有利于人类。刘震云说的一段话很好:在生活中,有的是吃人的人,有的是被吃的人,但是这两种人可以转化,羊渐渐可以转成狼;狼呢,渐渐地到一定阶段也可以转变成羊。
就好像是善恶一样,没有绝对的善恶,你这人特别的善良,那也有特别不善良的地方。最可笑的还有许多人,在羊向狼转化的时候,转化成一半,停在那儿了,半羊半狼,自己也闹不太清楚,到底是羊还是狼。
爬虫并没有思想,你想生活在一个怎样的世界,就要用自己的理念去实现!
来源:火车采集器
关于版权说明:
以上是关于科普|爬虫技术是如何改变我们生活的的主要内容,如果未能解决你的问题,请参考以下文章
用 Python技术,写爬虫网上兼职接私活,两天赚一千,生活费不用愁了