为什么大多数公司做不好搜索引擎
Posted 半佛仙人
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么大多数公司做不好搜索引擎相关的知识,希望对你有一定的参考价值。
这是半佛仙人的第440篇原创
1
在这个信息大爆炸的世界,一个人对热点信息的响应程度,一定程度上决定了他的受欢迎程度。
毕竟,人人都想有一个江湖百晓生那样的朋友,更想自己也成为这样受欢迎的人。
信息搜集和整理的能力,一定程度上取决于用了什么搜索工具。
过去我们的搜索,靠的是搜索引擎。
现在的搜索,是万物皆可引擎。
我们用微博搜明星,用淘宝搜商品,用豆瓣搜书、搜八卦,搜索引擎已然成为了我们生活中的一部分,成为我们抢占热点信息、不脱节的社交工具,更是成为了我们网络生活的全部。
我们需要用搜索对抗不知道外面在发生什么的焦虑,需要它来证实我们的猜测,好寻找心理认同,证明我们没有社交冷场。
举个不恰当的例子,哪怕发生了地震,我们的第一反应可能都不是逃生,而是打开手机,搜索“地震”,看看它有没有上热搜。
那么问题来了,我们的这种搜索真的能找到“真相”吗?
很多人并没有可靠途径来确保自己所查阅的信息是否真实和权威,所以这种搜索有可能引发群体性的“信息从众”,人云亦云。
从海量资讯中甄别信息真伪,是每个网民的困境。
也是所有搜索引擎正在面临的挑战。
我们的问题不是信息不够多。
而是太多。
2
判断一个搜索引擎好不好用,主要看三方面。
第一,高效。
第二,精准。
第三,稳定。
说白了就是看它能不能让用户高效地获取正确信息的问题。
这是市面上所有搜索引擎的痛点。
此外,搜索引擎还存在一些问题。
我们常说获取信息,有两种方式:
一种主动获取,一种是被动接受。
如今,想要主动去获取信息,已然是一种越来越稀缺的独立思考能力。
很多人虽然接受了信息检索的训练,但架不住现在网络平台的智能算法和推送能力大法好,导致了信息茧房的存在,大家需要花更多的时间精力去滤筛选信息。
这就增加了主动搜索的不确定的风险,搜不搜得到,以及可能会搜到什么内容非常不可控。
很多青少年甚至中老年人,前者缺乏一定的生活经验,后者欠缺必要的信息筛选训练。这两类人非常容易成为互联网诈骗的重灾区。
发现没,信息匮乏是个大问题,但信息大爆炸又带来了虚假信息难以辨别的问题。
相比之下,被动接受就要轻松得多,这种经由大数据处理之后的自动分发模式,让用户甚至不需要做什么,想看的东西自己就会冒出来。
不过这种被动接受并不意味着用户就可以选择躺平不动。事实上,绝大多数这种自动出现的信息都是无效无聊的,想要从中挑出一点有效信息,时间成本过高,回报过少。
甚至屡屡被爆出的数据泄露事件与谣言危机,在这种被动接受机制下很难得到有效地净化。
想成为合格的网上冲浪选手,用户必须要培养自己辨别筛选信息的能力,养成主动获取信息的习惯。
反过来从搜索引擎自身来说,这二十多年来,它能提供的服务已经越来越无法满足人们在碎片化的时间中快速寻求答案的需求。
以及“搜索引擎”商业化进程中不可避免诞生的竞价推广,关键词优化模式,用户根本分不清,自己搜到的是不是广告。
就说牛老师吧,他前几天感冒,感觉腮下淋巴结有点肿,他是随手搜了一下,却差点给我吓尿了,结果竟然显示说他这可能是艾滋的症状。
这个搜索引擎太不准了。
按照牛老师的生活习惯,应该把“可能”去掉,这个引擎还需要进步。
这恰好也说明了,搜索的精准率是一种刚需。
并且,搜索引擎所提供的这个答案,不应该只有正确答案的告知。搜索引擎应该意识到,用户的每分每秒都是黄金时间,经不起一点浪费。
它需要做的远比现在可以实现的更多,比如说帮助用户一步到位地解决问题,告知他们用什么手段解决以及在哪里解决。
但显然,这条路并不好走。
3
是当前存在难以攻克的技术难题吗?
是,但也不是。
搜索引擎本质上是一种信息获取方式。
理想情况下,对一套搜索引擎来说,它本身存储的信息当然是越全越好。
这就意味着,首先它需要靠爬虫技术爬取全网内容,并且有一套自己的清洗机制数据的能力,在对这些原始信息进行必要的处理后,建立自己的资料库或者说自己的大数据中心。
其次是构建索引环节,这相当于给每一个内容添加目录,便于搜索引擎根据用户的查询词来进行数据库检索。这就涉及到一个排列机制的问题,需要用到用户查询内容与网页内容的相关性分析、网页质量评价等技术。
尽管市面上所有的搜索引擎具体实现方式有差异,但所有的搜索服务的核心都是资料库+排列机制。
技术有差异,但是原理上基本没差别。
如果说资料库决定了搜索引擎的上限,那排列机制则决定有多接近上限。
答案很简单,排列机制直接跟效率挂钩。
不同的排列机制,直接决定用户第一眼看到什么信息,继而影响到他们的现实决策。
可见,效率才是搜索引擎的生死棋,也是影响用户执行的大杀器。
所以说下一个阶段,搜索引擎赛道上需要比拼的,已经不是数据的抓取技术、更不是数据存储。
在这个9块9就能学Python爬虫的大环境里,大家更看重的并不是真正的大千世界,而是那个跟自己有关系的世界。
现在搜索引擎需要做的,就是去理解用户真正想要的是什么。
并且在最短最快的时间里,给到他们最直接有效,独一无二的正确答案。
就像关于学Python,我会告诉你,善用搜索,不要钱。
4
引擎和信息的痛点,恰好给了“微信搜一搜”一个证明自己的机会。
生活中,很多人会忽略“微信搜一搜”是个搜索引擎,因为大家更习惯性地把它当成微信的一个小技能。
蛰伏许久,现在终于轮到它发力,成为某种意义上的“答案引擎”了。
别的不提,光从便捷性上说,当你想在微信范围内搜索任何东西的时候,你是不需要滑出微信的界面的。
无论是搜文字还是图片,你只需要选中,然后点搜一搜就行了。甚至你可以通过“扫一扫”功能,进行识物,拍照进行翻译。
搜一搜这么好用,自然绕不开它背后的微信。
他们源源不断的创作力,对信息的消化分解与再次整合能力,不断地信息知识迭代能力,都为搜一搜的整个搜索引擎系统及时地补充时效快,质量优的资源。
除此之外,搜一搜的搜索结果充分显示了人工筛选逻辑的力量。
第一,量化搜索结果。
每当用户在搜一搜上搜索一个东西的时候,结果展示中精选留言的数量、阅读数据、以及是否关注,都是会被量化展示的。
大家都喜欢用脚投票,一眼就能看出哪个答案呼声更旺,更得人心,从而避免了在大量的无效信息中摸索,减少筛选成本,提高搜索效率。
第二,规范化决策流程。
无论用户在搜一搜上搜索什么,搜索结果永远存在一个执行优先级的排列。
比如,搜索买票、就医这种,它给到的第一条信息,已经考虑到了用户有可能要做的决策,甚至足够承接他接下来的执行行为。
然后才是更大范围地搜索结果展现,以及细致的联想搜索拓展,从而帮助用户从更多的角度去思考决策。
5
在这种模式之下,追逐技术抓取并不是搜一搜做搜索引擎的核心,而是找到一套更为有效的方式去解决获取高质量信息的频率和概率的问题。
想要练就这种数据力量,仅靠一家公司去做数据抓取根本做不到,需要整个互联网的集体共创才能实现。
这意味着,我们看到的搜一搜还只是一个入口,在它背后真正站着的是微信建立起来的内容生态圈。
对搜一搜来说,这个口子既是对外也是对内。
对外,它需要保持更开放地心态,去合作更多靠谱的信息平台伙伴。
对内,微信,这个有十一亿用户,并且一直在持续壮大中的生态,每天都在产生和沉淀海量的信息内容。
搜一搜需要做的,并不是一味地追逐这种无穷无尽地信息瀚海,而是想方设法地让这些信息资源在流动中不断被激活。
最后回应给用户的搜索结果,不是量大,而是精准。
现在,搜一搜还需要做的,是更大力地撕开这个生态的口子,让更多的个人带着他们的搜索习惯和模式,参与到信息流动中。
这是一种借力打力,四两拨千斤的做法。
6
随着存量市场的竞争越来越进入到白热化的状态,做好一款搜索引擎的意义绝对不是收割更多的用户,靠他们赚钱,这套商业模式已经过时了。
直白地说,我们所描述的搜一搜背后的十一亿微信用户甚至几十亿相关用户深不见底的数据本身,是人们的生活,是大家在衣食住行的需求,在情绪上的求安慰,求鼓励,甚至是在迷惘中的求指引、求宽慰。
搜一搜存在的意义,无非是以这样的形式,架设起一个桥梁,让生活对接更广泛的生活。
从这个角度说,搜一搜只是一个工具,是生活中的人用它进行搜索,看到了更大的生活,这是一个众生见众生的过程。
懂事的公司都明白,工具的宿命就是为人服务。
同理,没有一家公司可以底气十足地说它创造发明出了一款伟大的工具。
所有的伟大都是背后的不起眼的,被欲望支配的,但也在不断进行着自我克制的芸芸众生。
这也是搜索引擎背后真正站的东西,尊重。
无非是尊重用户的选择,用户的想法,用户的好奇。
这就跟盲猜哪把钥匙能开锁一样,往往是最不起眼的那一把钥匙,打开了锁。
-----------------------
B站:硬核的半佛仙人
微博:半佛仙人正在装
知乎:半佛仙人
这是一个神奇的男人,你完全猜不出他会写出什么,他自己也不知道。
长按下图二维码关注,你将感受到一个朋克的灵魂,且每篇文章都有惊喜。
-----------------------
感谢你的阅读,下面是1个抽奖链接按钮,1月4日晚上19点开奖,一共6666元,2020个红包,感谢大家的支持。
【信息茧房下,你我需要破局】
以上是关于为什么大多数公司做不好搜索引擎的主要内容,如果未能解决你的问题,请参考以下文章