搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

Posted 柴知道

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文相关的知识,希望对你有一定的参考价值。

 

搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文



搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

搜索引擎里的信息为何越来越少?互联网为什么变成了一座座信息孤岛?

 

   视频版


↓↓ 看完这个视频就知道了 ↓↓

搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

↑↑ 信我,真的超级好看 ↑↑


   图文版

 

我们需要先简单地了解一下,搜索引擎是怎么搜信息的。

 

搜索引擎中最基础的工具,叫做「爬虫」


「爬虫」搜信息跟你用浏览器上网差不多,都是先向服务器发送请求,获得返回的页面,然后从中筛选出有价值的内容。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

比如这就是一个简单的爬虫。这行代码相当于把网址链接输入浏览器,获得豆瓣电影排行榜的文本内容:


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

再使用一些解析工具,就能找到你要的信息:


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

不过这只适用于简单的静态网页。而像柴司的B站主页属于动态网页,此时就需要借助浏览器的渲染工具才能获取到有用的信息。

 

比如这行代码,就能让爬虫借助 Chrome 框架来渲染爬取的网页,顺利获取动态渲染的内容。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

只要几分钟的时间,你就能写出这些简单的爬虫。

 

每年三月,虚拟世界都会出现“三月爬虫”的壮观景象——因为临近毕业的学生都在临时抱佛脚,爬取数据写论文~

 

搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


一些技巧足够娴熟,又没把技术用对地方的朋友,还能给自己甚至整个公司都赢得包吃包住的待遇。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

当然,搜索引擎的工程架构高度复杂,我们刚才所说的只是这个架构中的一个部分而已

 

搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


但至少从理论上来说,只要时间与资源足够,网上的绝大部分内容都能被搜索引擎的爬虫爬取到。

 

那为什么搜索引擎还是搜不到这些内容呢?

 

因为有人限制了爬虫。

 

并不是所有的信息都愿意被爬虫搜集,所以爬虫与网站之间有一套行业默认的协议:robots协议。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


你可以在许多网站的根目录里看到这样的robots协议,它会告诉爬虫哪些内容可以爬取,哪些不能。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

比如这是B站个人主页的robots协议,它规定如果是这些白名单里的爬虫,就可以爬你主页的内容。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文



另一大内容源今日头条也差不多:它的 robots 协议只允许自己家的爬虫获取信息,其他爬虫统统禁止。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

不过,robots 协议其实只是一个“君子协定”,因为它并不是强制要求,而且没有从技术上阻挡爬虫的能力。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

比如你自己在使用一些爬虫框架的时候,只需要把这个参数调整成 False,你的爬虫就会忽视掉 robots 协议,爬取信息。

 搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


那为什么搜索引擎公司不这么干呢?

 

因为法律不允许。

 搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


robots 协议虽然不是法律条文,但作为被广泛接受的行业规则,在法庭上也受到了认可。

 

比如 360 就曾无视 robots 协议抓取百度的内容。而法院在判决中认为, robots 协议是业内公认应该被遵守的商业道德,所以判决 360 赔偿百度 70 万元。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


当然,两家公司当时的缠斗也并没有因此结束。

 

搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


有时候,即便搜索引擎遵守了 robots 协议,也仍然可能因为爬虫内容使用不当而遭到起诉。

 

比如百度和大众点评的案件中,法院认为百度虽然遵守了大众点评的 robots 协议,但是却将爬取的内容用于充实百度地图和百度知道的内容,其行为具有明显的“搭便车”、“不劳而获”的特点,属于不正当竞争,最终被判赔偿 300 余万元。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

所以,只要 robots 协议不让搜索引擎爬取信息,那么哪怕搜索引擎想爬,有能力爬,那也不敢爬。

 

不过,还要再问一个问题:

 

为什么越来越多的公司,都不让搜索引擎搜自己平台上的信息呢?

 

其实在过去,网站们大多希望被搜索引擎收录,获取流量。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文


比如早年间,你是可以通过百度直接搜索淘宝商品的。在当时,搜索引擎和其他公司之间是相互合作的关系。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

但随着利益关系的转变,这种关系不复存在。淘宝在 2007 年屏蔽了百度,就是认为百度并没有给淘宝带来直接的交易量。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

而在移动互联网时代,这种利益关系变得更为脆弱:各家公司都希望把你的时间和数据留在自己的应用里,而不是送给搜索引擎。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文

 

例如,如果你能在常用的搜索引擎里面搜淘宝商品,那淘宝就很难获取你的行为数据;而在淘宝上搜索,淘宝就能根据数据给你推荐个性化的商品……和个性化的广告。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

反过来说,为了增加你停留在搜索页面的时间,谷歌等搜索引擎能让你在不跳转页面的情况下显示问题答案,这对于我们来说是方便了,但对于很多网站来说却很不划算。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

为了解决这些问题,一些搜索引擎选择自建内容体系,再把搜索结果导向自己的内容池,解决信息割裂的问题,同时把流量留在自己手里——但效果似乎也不太好。


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

总之,最初的搜索引擎和其他公司间是相互合作的关系。但随着商业模式的转变,大家利益不再一致。曾经互联互通的互联网信息,就被圈在了一个个信息孤岛上。

 


搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文 

我们希望互联网的未来,不会如此。


以上是关于搜索引擎怎么搜不到信息了?互联网正在孤岛化吗?|图文的主要内容,如果未能解决你的问题,请参考以下文章

微信公众号怎么搜索不了 微信搜索不到公众号是啥原因

web端调用高德地图为啥搜不到地址

推荐阅读搜索引擎为什么搜不到信息了?

微信小程序中使用高德地图关键词搜索以及点击位置获取位置信息

win10系统搜索不到共享的打印机,win10无法搜索到共享打印机怎么办

手机搜不到无线网络是怎么回事?