关于算法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于算法相关的知识,希望对你有一定的参考价值。

参考技术A 阿朱对于算法的了解不多,总结如下,希望多多交流,改正瑕疵。

算法推荐主要有5种方式:

基于内容推荐:这是基于用户个人兴趣的推荐。根据用户个体的历史行为,计算对内容特征的偏好程度,进而推荐出与用户特征偏好匹配的内容。

协同过滤算法:这是基于群体的推荐。基于用户的相似度、内容的共现度,以及基于人口特征将用户聚集为不同群体来推荐。(解释一下:常见的协同过滤算法有两种,一种是基于用户的(user-based),也即计算用户之间的相似性,如果A和B的兴趣相近,那么A喜欢的电影,B也很有可能喜欢。另一种是基于物品的(item-based),也即计算物品之间的相似性,如果电影C和电影D很相似,那么喜欢电影C的人,可能也会喜欢电影D。)

扩展推荐:基于用户兴趣点、内容类别等扩展。(你喜欢历史资讯,我推考古、寻宝的资讯给你)

新热推荐:基于全局内容的时效性、热度推荐。(在产品初期同时缺乏用户数据和内容数据时,内容分发效率很低。使用基于内容推荐算法效果不显著,而使用一些热点话题可在保证一定流量的同时,不断通过用户的个人行为(点赞、评论、浏览、收藏)来逐步精确用户画像和进行内容沉淀,为之后的个性化推荐做准备)。

环境特征:基于地域、时间、场景等推荐。(知乎上你们市的牙科诊所广告、婚庆广告)

每种算法的效果不一,组合味道更佳,因此很多公司都是采用“算法矩阵”的方式来推荐feed。(后文也会谈到这一点)

优势:

内容质量审核、社区治理(辱骂、撕逼),推荐商品,减少人工运营成本。

源源不断推荐给你感兴趣的feed,提升了用户粘性,商业化的潜力进一步加大。

让用户 kill time 的需求更好地被满足,增强用户体验

弊端:

1.算法本身或者算法背后的人产生技术错误——只要是人写的算法,就一定有出错的概率,比如德国居民凌晨发飙的智能音箱、失控的Uber自动驾驶汽车就是程序上的Bug导致的,这一类我们克服的办法其实相对简单。但对于另一种人为算计消费者的算法有时候可能我们就无能为力了,比如大数据杀熟现象,无论真实与否,这类问题往往很难识别,因此也加大了监管的难度;(抖音视频里你见不到“钱”字,只能看到“Q”来代替)

2.算法对于人性部分的忽略——现在的人工智能离真正理解人类的感情和行为依然有巨大的鸿沟,Facebook提醒你给去世的亲人发生日祝福背后本质的原因在于AI无法真正理解死亡对于人类意味着什么;因此需要人机结合(平台人工参与,用户举报等自治措施),不能单独依靠算法。

3.算法训练数据本身的偏见——目前人工智能的基本逻辑是先构建一个合适的机器学习模型,然后用大量的数据去训练模型,然后用训练好的模型再来预测新的数据,这里边有一个非常重要前提就是输入数据的重要性,比如变坏的微软机器人Tay之所以产生问题就是因为输入的数据中本身就存在偏见,如果现实世界数据本身就存在偏见,那么预测结果也一定会有偏见;

先下结论吧:算法不会导致“信息茧房”

“社交媒体和算法推荐导致信息茧房”这一判断成立的一个重要前提是:我们只会点击那些我们熟悉的、赞同的内容,不断让机器加深对我们的印象:原来他们只喜欢看这些!

但在现实中,这个前提是过于简化的,乃至是错误的。

在个体层面,我们有着多样的阅读动机,受到各种认知偏见的影响,可能倾向于点击某些特定类型的内容,但绝不仅仅局限于自己认同的那些。

在社交层面:我们在大多数APP上都存在着社交关系,以及主动选择关注的帐号,这些都对我们能接触到的内容产生重要影响。一个在APP上拥有一定社交关系的人,不太可能陷入狭窄的视野当中。

在技术层面:在算法的分类里说了,每种算法都有其利弊,因此很多公司都是采用“算法矩阵”的方式来推荐feed。但在普罗大众眼里,算法=基于内容的推荐算法,而忽略了“基于内容的推荐算法”只是算法种类里的一种,其他类型算法也会被产品使用。

在企业层面:没有一个商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。用户兴趣窄化对于商业化目标并不是一个好的选择。

博弈:

推荐太强了,关注力量就会弱。抖音沉浸式交互和基于内容的算法推荐是 kill time 的利器,推荐feed刷的过瘾了,你还会去刷关注feed吗?

共生:

算法有弊端,关注可以弥补或有所增益。推荐feed是忽略了人"社交性“这个特点,以知乎为例,关注的内容生产者传递给我们价值,所以我们需要一个途径来知道那几十个或上百的关注对象的产出内容。朋友圈满足我们窥探的信息需求,也同理。(另外从结果反推过程,大家看一下手里的B站、知乎、抖音、快手就清楚了)

关于推荐算法未来的思考:推荐诗与远方

关于推荐算法未来的思考:推荐诗与远方

2021年8月27日,国家互联网信息办公室发布了关于《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见的通知。

其中第十五条规定:

算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。
算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。

这从国家层面再次引发了大家对于推荐算法的本质的思考。

“信息茧房”的争论

信息茧房(Information Cocoon)是哈佛大学教授桑斯坦(Cass R. Sunstein)在2006年出版的《信息乌托邦》(Infotopia)一书中提出的概念。这个概念的意思是:

当个体只关注自我选择的或能够愉悦自身的内容,而减少对其他信息的接触,久而久之,便会像蚕一样逐渐禁锢于自我编织的“茧房”之中。

这个概念一经提出,就迅速引起轰动。支持和反对的声音都不绝于耳,甚至这个话题被写进了2020年江苏省高考语文作文题目中:

根据以下材料,选取角度,自拟题目,写一篇不少于800字的文章;除诗歌外,文体自选。
同声相应,同气相求。人们总是关注自己喜爱的人和事,久而久之,就会被同类信息所环绕、所塑造。智能互联网时代,这种环绕更加紧密,这种塑造更加可感。你未来的样子,也许就开始于当下一次从心所欲的浏览,一串惺惺相惜的点赞,一回情不自禁的分享,一场突如其来的感动。

反对信息茧房论者,比如有文章将这种思想归结为人类对于技术的恐惧。
比如,文中说:

信息偏食是人的本性,即便是在传统媒体时代,我们阅读报纸时也只是挑选自己感兴趣的文章来阅读。某种程度上,算法推荐只是便捷化了这一挑选的过程。
因此,“信息茧房”只是一个站不住脚的“伪概念”,或者说是一种“揣测”。

如果这个逻辑成立的话,我们可以说,因为喜爱高油高热量高糖的食物,我们的食堂就只提供这些食物就好了。

尼采认为,生命的本质就是追求权力意志(will to power)。但是,人类也是存在弱点的,可以通过一些手段压抑人类的权力意志。比如催眠,机械性重复的活动,微小的快乐,群体认同,让某些情感过度发展等。

宗教曾经做到过这些,使西方经过了上千年的中世纪。今天的网络游戏也可以做到其中的很多点,我们不能说因为宗教当年就是这样压抑人性的,所以网游这么做也是好的。

现有的推荐算法给人们带来什么

1775年,美国独立宣言起草者之一的帕特里克·亨利在弗吉尼亚州会议的演讲上讲出了著名的那句"Give me liberty or give me death",不自由,毋宁死。

沉沦于常人状态

那么,人是不是自由的呢?
让我们把时间推回原点,当人出生的时候,他或她没有权利选择自己的性别、父母、民族、家庭、国家,用海德格尔的话来说,人是被“抛”入这个世界的。
出生了之后,人类也是无法离开他人独立生存的,小时候是,长大之后仍然是。为了跟他人共同生存,就不得不受他人的影响。人总是在这种或那种处境中操劳。
我们所处的环境,就像一张大网,把我们困在其中。跟别人的交流、书籍、报纸、广播、电视、互联网上的信息也不断地影响着我们的想法。为广告、媒体、电子商务服务的推荐算法,正是这大网中提供能力增强的一部分。
这种受到别人的很大影响,而缺乏自我思考的状态,海德格尔称为“常人”。人们处于“常人”状态而不自知的这种状态,海德格尔称之为“沉沦”。

最基础的推荐算法叫做“协同过滤”。分为基于商品的协同过滤,也就是你买了商品A,就推荐相似的商品B给你;以及基于用户的协同过滤,也就是说你和朋友C的喜好相似,他买了商品D,那么也将商品D推荐给你。
举例来说,你买了辛拉面,就推荐相似的韩式火鸡面给你。
再比如,你和雷姆老师的喜好相似,比如你们都喜欢喝可乐。现在发现雷姆老师喜欢吃火锅,那就推荐你也吃火锅。

将这个原理做得更复杂一些,比如我们可以写成下面的公式:

但是不管表示起来如何复杂,本质上推荐算法所做的事情就是大网的一部分,让人沉沦于自己或者别人的兴趣的计算结果之中。

好奇与空虚

看到上面的结论,有些同学觉得不对。学过算法的同学都知道BandIt,在利用与探索中寻找平衡。你说我用推荐算法来网住你,我给你增加随机性总该可以了吧?
还有的同学认为,人生来就是有好奇心的,好奇心会让我们突破大网,找到更广阔的世界,打破这个限制。

那么我们不提哲学理论了,就从大家最常见的刷手机的场景上来说。比如休息一天在家刷手机,看短视频,看小说,追剧,看八卦新闻,打手机游戏。这样的一天度过了之后,躺在床上如果不能入睡的话你会感觉到什么,是充实,还是空虚?
我们在生活中也会遇到很多人好奇心很强,知道的东西很多,但是却没有什么很精通的东西。
这是因为,好奇心确实是人类探索未知世界的有力武器,但是光有好奇还不行,人类的默认模式是注意力涣散,兴趣点很快从一个事物迅速跳到另一个事物上。
就像仙剑中灵儿的那首小诗:“今日种种,似水无痕。明夕何夕,君已陌路”。

我们知道,人类是个视觉动物。观察人类的视线就可以看到,眼睛正常是不会盯着同一个地方一直看的。眼珠不动的反而可能是视障人士。
这种没有思考的好奇心,会让我们的生活消散在一片虚无之中,如无根之浮萍,没有根基,最终回归沉沦之中。

法国哲学家萨特认为,人类的本质就是虚无。人有无限种潜在的可能性,但是人类的天性是希望寻找确定性而非可能性。人类可以通过占有物品,比如买东西去获得一种确定性的感受,但是有限的、固定不变的东西没有办法填满无限的可能性。
这也是从哲学上对于现有的推荐算法无法满足人类的需求的解释。

最后,因为沉沦,因为不愿意独立思考,人们也不愿意做决策,更不愿意承担决策的后果。推荐算法可以帮助人们逃避决策,继续沉沦。
这当然谈不上有多负面,但是也谈不上有多正面。

如何破局?

那么,问题来了,这也不行,那也不行,那到底该怎么办?

向死而生

答案是像《勇敢的心》里的威廉.华莱士一样,通过思考,追求自由,从沉沦中觉醒出来,进入一种称为“本真”的状态。

在沉沦状态下,我们其实是放弃了自由,把决定自己生存的决断交给流行的意见和习俗。
本真的生存状态并不是要标新立异,跟流行对着干,那其实仍然是一种沉沦的状态。而是理解我们生来是有自由决断和选择权的。纵然受到各种限制,纵然要承受决断带来的后果,那就对不起自己的良心。这不是因为我们不能做,而是我们明明能做但是没有做,自己没有对自己的生存负责。

那么是不是理解了这个道理,我们就可以过好这一生了呢?
哪有那么容易!你太小看常人状态的力量了。这种生来就伴随着我们的巨大惯性和旋涡一样裹挟着我们,想逃出去的可能性非常小。

得多强的力量才能像成为地球卫星的第一宇宙速度一样飞上太空呢?可能只有到了生命的尽头才能明悟,所谓“人之将死,其言也善”。
在那样的时刻,人们才能真正发现,自己要死了,但是平时沉沦所在的世界并不会跟自己一起去死。这是将某个人和常人环境分离的一个突破口。在这一时刻,人后悔想做而没有做的事情,跟别人的期望、其他人的看法等终于完全没有关系了,这一个,人终于成为了自己。
人的个体性和无可替代性终于从常人的状态中脱离出来。
试问,现有的推荐算法能够推荐出满足本真状态需求的东西么?推荐的结果本身也随着沉沦态一起被分离出去了。

那么,有没有办法不等到最后一刻才能进入本真的状态?
美国作家萨洛扬说:“每个人都会死,但是我总以为自己不会”。这是沉沦状态的常态。但是如果我们能够直面死亡,真真切切地去用心体会对于自己将要死亡的感受,保持对于死亡的“畏”的状态,我们就有可能进入到本真的状态。
但是,懂得了进入本真的方法,仍然不见得能过好一生,因为本真的状态可能只存在一瞬间,你马上又被常人状态拉回到沉沦之中。

尽管回到了沉论,但是良心的种子已经在慢慢生根发芽。你就有更多的机会跳出沉沦,去反思什么才是真正你这个个体所想要的。

当然,通过反思悟到脱离沉沦状态的方法不止“向死而生”这一种。比如针对似水无痕的好奇心,对于死亡之畏,你悟到的是“无无明,亦无无明尽,乃至无老死,亦无老死尽。无苦集灭道,无智亦无得”。那么你一样可以摆脱沉沦状态,但不是进入本真状态,而是“远离颠倒梦想,究竟涅磐”了。

诗与远方

有同学讲了,我看你这篇文章是想看推荐算法的思考,你跟我讲向死而生有什么用,这是靠人自己思考和反思的,推荐算法能帮上什么忙?光推荐,人不反思,还是会一直沉沦下去啊。

幸好除了完全脱离沉沦回归本真的方法之外,我们还有在沉沦中打开一扇看到另外的世界的窗口,这就是诗歌、艺术与自然的召唤,我们统一称做“诗与远方”。

脱离沉沦可以认为是离开黑暗进入光明,而诗与远方就像是夜空中明亮的心,同样可以给沉沦中的我们带来不指引。

当海德格尔在思考沉论的时候,他看到了被人遗忘了100多年的德国诗人荷尔德林的诗:《人,诗意的栖居》

如果人生纯属辛劳,人就会
仰天而问:难道我
所求太多以至无法生存?是的。只要良善
和纯真尚与人心相伴,他就会欣喜地拿神性
来度测自己。神莫测而不可知?
神湛若青天?
我宁愿相信后者。这是人的尺规。
人充满劳绩,但还
诗意的安居于这块大地之上。我真想证明,
就连璀璨的星空也不比人纯洁,
人被称作神明的形象。
大地之上可有尺规?
绝无。

无独有偶,当存在主义的思潮逐渐散去,新时代运动兴起,西方人民在寻找心灵渴望的源泉的时候,找到的是700多年前伊斯兰教苏菲派诗人鲁米的诗。
2007年,联合国教科文组织将这一年定为“国际鲁米年”,以纪念鲁米诞辰800周年。

比如这首:

你很美
你以为你是在门上的锁
可你却是打开门的钥匙。
糟糕的是你想成为别人
你看不到自己的脸,自己的美容
没有别人的容颜比你更美丽。
宇宙中的一切都在你体内
向内寻求一切的答案吧

语言可以揭示存在,同时又很容易遮蔽存在。当我们使用一套惯用的语言,很多观念就变成了现成的、理所当然的,从而让人陷入沉沦,让存在本身被遮蔽和遗忘。而诗歌就是揭示存在,让读者进入澄明的虫洞的入口。

同诗歌一样,海德格尔认为,每一件伟大的艺术作品都在混沌一片的沉沦状态下照亮了一片场域,也让观看者同时进入澄明无蔽的真实之境。
我个人认为,作为人类心灵归宿的大自然,也起到同样的澄明作用。

那么我们的推荐算法呢?是不是也能照亮一片场域,澄明一块无蔽的真实之境?让用户在沉沦中能够找到本真自我的真实的需求?

新的推荐算法,应该具有下面的几个特征:

  • 它必须是为独立的用户服务的:它不可能是商家提供的,商家不管多么认为他客户第一,他的客户也不是为某个具体的个人服务的。其中会牵扯太多的平台的、大商家、小商家、其他消费者和开发者本身的利益在其中
  • 它可能很复杂:虽然只代表一个具体的用户,但是它可能不仅仅是一个网页,一个应用,可能需要专门为这个用户个人服务的服务端甚至是集群
  • 它不是免费的:推荐不再是商家的营销手段,这个成本当然是个人用户自己需要承担的
  • 它是人机合作的:如前面所说,它不是替代人思考的工具,那样就是沉沦的帮手。人不能放弃自己决断的自由,而算法的作用就是辅助澄明新场域
  • 它是感性的,甚至灵性的:这可能是最大的挑战,如何用数字来表示感性。但是,问题不在于难不难,也在于是不是真正的问题。好消息是现在越来越大的预训练模型已经为这方面带来一丝曙光。

最后,让我们引入一小段鲁米的话来作为结束:

不要担心你的生活在发生颠覆。
你怎知道过去的生活一定比将来的要好?
Do not worry that your life is turning upside down.
How do you know that the side you are used to is better than the one to come?

小结

算法不能只推荐眼前的苟且,还要像诗与远方一样澄明一片场域的遮蔽。

以上是关于关于算法的主要内容,如果未能解决你的问题,请参考以下文章

关于LZ77压缩算法

关于日历的算法

关于算法很好的网址

关于SPFA算法的优化方式

关于推荐算法未来的思考:推荐诗与远方

关于推荐算法未来的思考:推荐诗与远方