从百度搜索质量谈起

Posted caoz

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从百度搜索质量谈起相关的知识,希望对你有一定的参考价值。

前几天看到一篇文章,很好的技术科普,我转发到了我的星球里,文章本身内容很硬,非常值得推荐,但吹毛求疵一句,就是其中有一句话,我是不认可的。

- Google的体验比Baidu好,根本在于前者rank牛逼

KG沈剑,公众号:架构师之路每秒10W次分词搜索,产品经理又提了一个需求!!!(收藏)

这句话的问题在哪里。

第一,所谓“Google的体验比Baidu好",本身是非常主观的认定,并不符合事实。如果严谨点来说,应该是"针对特定人群,针对特定领域,Google的体验比Baidu好”。

实际上,就我观察而言,国内很多日常生活搜索,Google的搜索质量其实是不如百度的。

第二,就搜索体验整体而言,百度最为诟病的体验问题是广告审核不严和广告混淆自然结果的问题,这个问题肯定不是rank算法的问题。也就是说,所谓“根本在于前者rank牛逼”,也是站不住脚的。

第三,百度在技术领域的资料搜索上,特别是一些前沿技术领域的资料搜索上,确实和Google差距很大,但这其实主要也不是Rank策略的问题,而是收录能力和收录方向的问题。Google是全球收录,信息源更丰富,而百度的海外收录规模乏善可陈,这就造成了两种问题,其一是优质的一些技术资源未被收录,导致无法给出这样的搜索结果;其二是虽然一些优质技术资源机缘巧合被收录了,但是产生相关引用的各种优质网页资源未被收录,导致其rank价值被显著低估,所以优质资源无法获得应有的排名。

所以,即便是百度搜索质量较差的一些领域,收录不足的问题其实比rank策略的问题所占的成分更大一些。而海外优质资源的收录问题,是所有境内搜索引擎不得不面对的窘境,真的不是钱和资源的问题,这个就不展开说了。

那么以上,其实是针对搜索质量问题的一些澄清,如果只是这些,这篇文章只能算是口水文,👇下面说点有含金量的。

百度的rank策略和谷歌相比,根据我的观察,有一点是不如谷歌的,就是百度对“点击提权”过于纵容了,当然,这是我早几年的观察,最近两年确实用的不多,所以不确定现状是否依然。

那么我旧文其实多次提及“点击提权”,但是并没有系统阐述过,为什么没有,这玩意是很多人的饭碗,甚至有我朋友圈的人。没来由砸人饭碗,不合适。现在为什么敢说了呢,这不年代久远了,很多平台的风控策略也上去了,也就不藏着掖着了,给大家当个增进认知的案例讲。

早几年曾经有人诟病,为什么百度搜索一些常见的词汇,会出现非常软色情的结果,那么有人会因此质疑百度的操守,其实想多了,这个问题就是由于点击提权造成的。

所谓点击提权,其实非常简单,就是某个关键词下,用户点击率越高,那么就会认为其内容权值越高,这个出发点就是基于用户的选择,优化相关结果的排序,也就是所谓的机器学习的一种典型场景,如果你只看这个初衷逻辑,似乎也是很合理的,但软色情的内容往往在任何词下,点击率都有优势,所以就会出现这种情况。

所以算法本身初衷是一回事,现实的复杂性是另一回事。

然后关键点来了,如果基于用户的选择可以改变搜索排序,那么,如果这个用户选择,是人为的呢?

我们之前说了,谷歌对点击提权似乎有一定的控制,但是谷歌之外呢?

比如,ASO产业,就是基于这样的一个基本原理,第三方排名公司,每年至少有数亿元的产业营收规模。逻辑很简单,用更多不同的终端,点击特定关键词下的特定结果,从而提升其排名。

最早是机群操作,但是很容易被系统风控识别,但新的玩法就出现了,分包么,搞个分包任务群,让大家去搜索特定词,点击下面的特定结果安装。通过视频录制获得一些任务佣金。这种模式风控识别就非常难了,因为都是真实用户,发生的时间,地点,终端类型也都非常散布。

那除了ASO还有没有其他的?肯定有,不说别的,为啥电商平台很多人会刷单,差不多的道理。

那你说,为啥还要用点击提权呢,其实,所谓推荐算法,不就是一种点击提权么,基于用户的选择,基于用户的点击,基于用户的下载,来改变内容分发的权重,所以,这个玩法不仅仅影响到搜索,分类榜单,甚至会影响到广告投放。

很多广告投放的系统,会对广告内容质量做出预测,从而基于预测给与投放规模,特别是一些基于转化定价的广告素材,转化的统计是延后于投放的,这里就存在了蒙骗广告系统的时间差,那问题来了,如何蒙骗呢?就是让广告系统误以为这是一个优秀素材,转化率高,所以即便是低单价也可以给予足够高的播放量。那如何让系统觉得这是一个优秀素材呢,就是小规模投放的时候,人为提高转化效率。

所以这事就变得离谱,以前我们说恶意点击,是点击和转化竞争对手的产品,给竞争对手带来预算损失,现在很多场景下,事情反过来了,会先消耗自己的预算,在小规模投放的情况下制造自己的高转化假象,然后加大预算,欺骗投放平台,低单价骗取高投放规模。

欺骗算法是个很大的课题,也是风控必须非常关注的课题。机器学习的初衷是基于人类的选择优化内容的展现权重,但是这个逻辑也会被蓄意利用,毕竟排名,推送背后是巨大的商业价值。而相关的产业,直到今天,都是非常惊人的。

当然,我不是鼓励你去做灰产,但是至少,当你在大公司从事相关推荐或排序系统的设计和研发的时候,你需要知道,你会面对怎样的风控考验。当年进行相关数据分析的时候,你需要知道,很多亮眼的业务数据背后并不是真实的用户,而这个规模有可能是相当惊人的。


如果你认为你看了我的文章就可以掌握灰产秘诀,并能够通过人为操纵获得某些排序或投放优势,那我也特意提醒一下,现在各大平台的风控策略和几年前不可同日而语,虽然现在依然有人可以利用某些途径获利,但通路会异常崎岖和复杂,仅凭这么一篇文章,你去实践的话,大概率是送人头交学费,到时候别说我骗你。

以上是关于从百度搜索质量谈起的主要内容,如果未能解决你的问题,请参考以下文章

从代码质量谈起

Asta Xie: 玩转Go语言,从beego开始

感悟:百度万人协同规模下的代码管理架构演进

暂停服务!又一良心国产搜索引擎凉了?

SEO--质量监测

关于程序员的职业操守,从《匠艺整洁之道》谈起