个性化新闻推荐算法的技术解读与价值探讨

Posted 中国编辑

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了个性化新闻推荐算法的技术解读与价值探讨相关的知识,希望对你有一定的参考价值。

个性化新闻推荐系统(Personalized News Recommender System)是近年来备受学界和业界关注的新型新闻分发方式。其所依托的推荐系统(Recommender System)技术基于计算机技术、统计学知识,将数据、算法、人机交互有机结合,建立用户和资源的个性化关联机制,在信息过载时代,为用户的消费和信息摄取提供决策支持。

个性化推荐功能对于新闻产品的重要性在各大聚合类新闻APP中可见一斑。在国内,今日头条、天天快报、一点资讯借助推荐算法对依赖人工编辑进行无差别内容分发的传统资讯巨头提出挑战,取得较高市场占有率;ZAKER依靠个性化订阅的方式,根据用户兴趣偏好进行定向推送。在国外,News Republic,Flipboard和Google News等APP也会根据用户的差异和环境等约束条件的差异给出不同的阅读建议。实时流量实验表明,优良的个性化推荐算法提高了新闻推荐的质量并增加了网站流量。

目前,新闻学界已关注到传统媒体到个性化媒体的转向,正在重新定义新闻是什么,并从产业链重构、受众心理、权利迁移等角度研究了个性化媒体带来的影响,同时对个性化推荐所导致的“信息茧房”、价值嵌入等问题进行评价。然而由于文理科之间的藩篱,新闻界在思考个性化新闻推荐的风险时,多从人文社会科学的角度展开联想,缺乏对推荐算法原理的深度解读,因而对推荐系统的隐含风险认知较为单薄。而计算机学科从技术路径展开对推荐系统的评价时,过多关注准确率、可扩展性等计算指标,缺乏对算法人文精神和社会影响的评估。鉴于此,本文尝试打破计算机科学和新闻学的界限,从技术路径出发,针对个性化新闻推荐系统的三种主流算法——基于内容的推荐机制、基于协同过滤的推荐机制和基于时序流行度的推荐机制,解读其理论内核和伦理风险。


一、个性化新闻推荐系统溯源

互联网技术使人类从信息匮乏时代步入信息过载时代,为降低信息消费者的决策成本和信息生产者的送达成本,若干种信息过滤机制被提出,其中早期的经典策略是分类目录和搜索引擎。分类目录以雅虎、hao123为代表,其思路为根据主题类别,人工构建复杂的树状分层目录搜索体系,对读者的信息寻求进行导航,但是有限的目录难以适应资源量级的迅速增长,也无法对资源内容进行精准的描述,故该策略仅适用于互联网发展的初期阶段;搜索引擎以谷歌、百度为代表,针对用户主动提供的关键词,依靠自然语言处理、信息检索等技术,迅速从海量信息中过滤出与关键词相关的条目,很大程度上满足了用户的信息检索需求。但是搜索引擎是一种被动的信息过滤机制,只有在用户主动进行搜索时才能触发,无法响应用户没有明示的潜在需求,更无法给不同的用户提供个性化的信息。

针对分类目录和搜索引擎的不足,推荐系统应运而生,并于20世纪末成为独立的研究领域。它模拟了人们习惯于听从外部建议进行决策的心理机制,通过与用户的交互,直接获取用户显式表达的偏好或间接从用户的行为中推断隐含的偏好,为其推荐以前并未推送过的信息,以实现用户和信息的匹配,在Amazon、Google、Netflix等互联网应用中发挥作用。

推荐系统一经兴起便被广泛应用于新闻领域,为读者提供个性化服务。1993年,麻省理工学院媒体实验室的科学家为解决BBS新闻组上的信息过滤需求,将遗传算法和反馈学习技术相结合,开发出一种能够动态适应用户不断变化的兴趣的半自动信息过滤系统,并通过实验证明了经推荐系统过滤后的新闻具有较高召回率。1994年,同样是基于BBS新闻组上的信息过滤任务,推荐系统领域内经典的协同过滤算法被提出,直接促进了整个推荐系统学科的繁荣。1995年,斯坦福大学研发的SIFT Netnews允许用户维护自己的兴趣配置文件,通过余弦相似度实现用户与BBS上新闻的匹配。同年,第一家试图使用网络报纸逼真模拟印刷报纸的网站Krakatoa Chronicle通过记录用户浏览新闻时的阅读时间、滚动和最大化等操作来推断阅读者的兴趣。网络新闻过滤系统News Weeder让用户对每篇文章阅读进行兴趣评分,从而推断阅读者的口味,这样的推荐方式可以使与阅读者兴趣相匹配的文章数量从14%提高到52%。1996年,Beehive推荐系统借助用户的社交互动进行推荐,系统首先记录与目标用户发生高频互动的亲密用户,随后当某个用户发现感兴趣的新闻时,该新闻的链接会被自动分享给其亲密用户。

随着时间的发展,新闻推荐系统变得越来越精致,移动设备的流行使得新闻精准推送得以和场景匹配。用户在Twitter和Facebook等社交平台中的行为记录也被用来作为推荐依据;综合性互联网公司猎豹移动(Cheetah Mobile)甚至利用迁移学习技术,打通旗下不同APP间的数据为其新闻资讯平台News Republic的推送提供帮助。此外,考虑到新闻产品的特殊性,Google团队将用户的新闻兴趣分解为长期兴趣和短期兴趣,把当前新闻趋势的影响纳入模型,以提高推荐的时效性,新颖性、多样性、透明性等指标也被引入评估体系。

从技术角度看,近年来随着人工智能技术的兴起,在解决推荐系统运行过程中遇到的分类和聚类问题时,除了传统的朴素贝叶斯、决策树、支持向量机算法之外,强化学习、循环神经网络、迁移学习等深度学习技术也被用以解决具体问题,表现出较好的性能。

二、新闻推荐系统原理

新闻推荐系统建立了用户和内容的匹配机制,虽然其具体的实施方式受到新闻产品条件、需求和定位的差异的影响,但其原理均可被概括描述如下文。

推荐系统的输入包括用户数据、新闻数据、交互数据。其中,用户数据依据采用的算法,可以有多种类型,既可以是用户的人口统计学特征,如年龄、性别、地区、职业和受教育程度等;也可以是用户的行为特征,如搜索、浏览记录等;还可以是用户的关系特征,如用户的好友关系、与其他用户的互动频率等。新闻数据为新闻的特定属性,如文体、主题、关键词、地点、流行度、n元组关系。交互数据指用户和推荐系统的互动记录,如用户对某条新闻的评分、点赞、分享、评论、关闭、屏蔽等操作。推荐算法依据不同的原则,处理输入数据,生成一组组新闻与用户的匹配关系作为输出。

在这个过程中,推荐算法作为新闻个性化推荐系统的核心,主导了推荐的效果和价值导向。虽然新闻推荐算法的种类繁多,但根据原理其可以分为“基于内容的推荐”“基于协同过滤的推荐”“基于时序流行度的推荐”三类。下面本文将从三类算法的原理入手,分析其技术特点和伦理风险。

三、个性化推荐算法的技术与伦理

(一)基于内容的推荐算法:“信息茧房”陷阱

基于内容的推荐算法试图为用户推荐与其既有兴趣相似度高的新闻产品。具体而言,算法由兴趣文件配置器、新闻分析器、过滤器三部分构成。在运行过程中,首先,使用兴趣文件配置器,根据用户显式披露的或隐式呈现的信息偏好,建构出用户的兴趣模型;其次,算法借助新闻分析器从非结构化的新闻文本中提取关键词、类型、n元组等特征,通过统计学的方法对特征进行向量化建模,以结构化的形式存储在数据库中;最后,通过过滤器,计算每个新闻文本和用户兴趣模型的属性的相似度,得出兴趣与新闻的相关性指数,选取相关性较高的新闻文本生成推荐列表。该方法的关键在于准确地建构兴趣模型、提取新闻特征、计算用户兴趣和新闻特征的相似度。

基于内容的推荐算法多见于文本内容的推荐,在多媒体内容的推荐领域应用较少。其优点是不依赖其他用户的数据,直接建立在用户兴趣与内容特征的相似度匹配上,推荐结果往往与用户过去喜欢的某条新闻具有相关性以及较强的可解释性。但相应的缺点是,如果既有的用户数据没有反映某种兴趣,则系统不会主动推送与该兴趣相关的新闻。因而该算法可以获得较高的匹配度,但“偶然发现”机制的缺失会导致新颖度、惊喜度不足,无法发掘用户潜在兴趣。

从价值取向来看,基于内容的推荐算法更倾向于取悦、迎合用户,而非教育或引导用户,而新闻产品的特殊属性决定了大众媒体在人类社会中必须承担除了娱乐之外的社会功能。詹姆斯·凯瑞在其经典论文《传播的文化研究取向》中将传播分为作为传递的传播和作为仪式的传播,但是当基于内容的推荐算法主导新闻分发时,大众传播的这两种意义均被消减。一方面,基于内容的推荐算法越精准,用户接收的新鲜信息反而越少,本应多元化的信息流被算法拦截,代之以同质化的信息,引发大众媒体信息传递、监测环境的功能失灵,用户被封锁在无形的“信息茧房”中;另一方面,这种推荐机制使用户沉浸在个人议程中,无法被公共议程所影响,用户之间难以进行文化共享,长此以往,在构建认同和维系集体情感方面,大众媒体应有的社会整合功能会出现失灵。

(二)基于协同过滤的推荐算法:阅读决定权的转移

协同过滤算法是一种利用群体智慧的推荐方式,其进一步分为基于用户的协同过滤算法和基于物品的协同过滤算法。基于用户的协同过滤算法的原理是“人以群分”,通过聚类分析若干用户的行为数据,将行为类似的用户编入一个隐形阅读小组,对目标用户推荐该小组中其他用户感兴趣但未被目标用户阅读过的新闻。基于物品的协同过滤算法的原理是“物以类聚”,如果某两则新闻总是被同一个用户阅读,则默认二者之间有更大的相关性,因而会给阅读过其中一则的用户推荐另外一则,与基于内容的推荐不同,该算法并不直接计算两则新闻的相似度,而是通过用户对两则新闻交互行为的类似性,推断出两则新闻具有相似度。

基于协同过滤的新闻推荐算法能够反映群体偏好,将群体中其他人的行为进行传递,这种不完全依赖于目标用户既有兴趣的做法,可以发掘用户的潜在兴趣,一定程度上解决“信息茧房”的问题。

但是协同过滤算法具有透明性的隐忧,传统的用户相似度评估问题通常借助k近邻、朴素贝叶斯、支持向量机等基于人工提取特征的监督学习算法,虽然分类标准对普通用户不可见,但在系统中,用户尚能基于某种明确的标准被分入“隐性阅读小组”。然而近年来随着数据体量和复杂度增加,“黑箱”式的无监督机器学习在解决聚类问题时得到广泛应用,聚类算法试图将数据划分到若干簇中,在这个过程中,人类无法设置簇的类别,只能依赖机器在大量的计算和内部反馈基础上,增加属于同簇的数据相似性和不同簇的数据相异性,最终实现数据的多重切割,进行模型参数的自我修正。这就导致虽然机器可以完成对现实问题的处理并且表现出良好的效能,但机器赖以决策的参数对人类来说是意义不明的。

在协同过滤算法的作用下,人类仅知道该新闻被推荐的原因是机器认为某位具有类似品味的用户喜欢该新闻,却不知是哪个用户在影响自己,也不知道机器对于“类似品味”的定义。推荐结果解释力的缺位意味着用户失去对阅读内容的控制力,在无法获得推荐理由的情况下,被迫将信任交付给基于黑箱模型的算法和掌握技术权力的平台,这在某种意义上可以看作机器的异化。

(三)基于时序流行度的推荐算法:电子媒介的“黄色新闻潮”

虽然基于内容的算法和基于协同过滤的算法在推荐系统中扮演重要的角色,但在新闻推荐领域,二者不能够解决全部的推荐问题。一方面,两种算法缺乏对最新文本的响应能力,新闻特有的新鲜性导致系统难以完全依赖过去兴趣对新涌现的事物进行匹配,用户兴趣模型和阅读小组更新频率也难以追随新闻的时效性;另一方面,基于内容的算法和基于协同过滤的算法依赖长期积累的大规模数据,无法解决新闻平台冷启动和用户冷启动的问题,当平台用户规模较小或新用户登录系统时,系统无法对用户进行准确建模和信息推荐。因此,基于时间序列流行度的算法被引入新闻推荐系统。

基于时序流行度的算法引入时间维度,将单位时间的瞬时点击率等动态特征作为考量因素,同时综合考虑新闻的信息熵等指标,以便将特定时间窗口内流行度较高的新闻推荐给用户。

时序流行度算法的初衷是通过计算当前的新闻热度,降低对既有数据的依赖,提升推荐系统对实时热点的响应能力。但由于该算法输入数据较为依赖流行度指标,其推荐结果不可避免地走向“热度导向”的误区,追求感官刺激的耸动新闻比严肃新闻有更大的概率获得推荐,污染用户的信息环境。

这种算法的原理与西方历史上的自由主义新闻观的逻辑相似,通过鼓吹点击率,试图复现电子媒介中的“意见的自由市场”,以一种看似公允的方式让不同质量、不同种类的信息对用户的“个人头条”展开竞逐,以期实现理想化的“真理的自我修正”。然而历史已经证明了自由主义新闻观的内在缺陷,注意力导向的评价机制不仅无法使严肃新闻战胜耸动新闻,反而使利益驱动新闻编辑室,导致新闻生产的质量滑坡,催生著名的“黄色新闻潮”。与历史教训相比有过之而无不及的是,碎片化的移动阅读方式本就使追求耸动的“标题党”传播力获得天然加权,算法对于热门新闻的进一步推荐不仅没有矫正传播的偏差,反而助推了耸动新闻和严肃新闻之间的马太效应,加大了流量驱动下“黄色新闻潮”在电子媒介中复活的风险。

四、结语

纵然计算机科学家们相信,推荐系统可以通过信息的个性化匹配实现信息消费者和信息生产者双赢,但是对新闻推荐系统的核心推荐算法进行解读可以发现,不同的设计思路和数据摄入会导致不同的风险,基于内容的推荐容易导致“信息茧房”现象,基于协同过滤的推荐会引发受众对阅读内容的失控,基于时序流行度的推荐有诱发“黄色新闻潮”的风险。虽然实践中大量的推荐系统采用混合算法,但这并不意味着每种算法导致的伦理缺陷被改善,仅代表着新闻平台在以上各种风险之间进行权衡。

算法的结构性缺陷和输入数据的偏向决定了其在实践中的伦理缺陷难以通过技术手段弥合,新闻产品的特殊性呼吁更为立体丰富的人文价值对算法价值观进行外部矫正。在技术变革促进新闻界业态变革的背景下,重新明确人类价值观在算法中的位置和作用,是留给新闻学和计算机科学的时代命题。


参考文献:略


[本文系清华大学自主科研项目“智能时代的媒介价值观引领研究”的阶段性成果]

(作者单位:清华大学新闻与传播学院)


中国编辑 zgbjwx

投稿方式:来稿请寄杂志社电子邮箱

(zgbj@vip.sina.com)

邮编:100120

发行代号: 国内82-594 国外BM-1746

每月10号出版

定价:人民币10元/期



以上是关于个性化新闻推荐算法的技术解读与价值探讨的主要内容,如果未能解决你的问题,请参考以下文章

解读微信个性化广告的推荐算法和工程技术

深度学习技术在美图个性化推荐的应用实践

新传必考热点知识精讲 | 推荐算法

干货!新闻推荐算法的5大问题+4大优化策略

干货 | 携程个性化推荐算法实践

详细解读!推荐算法架构——召回