笔记收藏解读蓝皮书:新闻推荐算法专题
Posted 新传考研社
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了笔记收藏解读蓝皮书:新闻推荐算法专题相关的知识,希望对你有一定的参考价值。
↑别忘了置顶哦↑
个性化信息推送是基于“用户洞察”的个性化信息的智能匹配,即通过人工智能分析和过滤机制,根据个性化需求聚合相关的信息和应用,并以此对信息进行深度智能分析,以实现用户个性化、动态的需求。概言之,就是为用户找到与其需求相匹配的内容;反过来说也就是为内容找到与其属性相匹配的用户。个性化内容推送作为一种相对成熟的人工智能技术,对于新闻业务链的创新发展产生了革命性的影响。
目前,个性化新闻推送主要是通过挖掘用户数据从而针对用户兴趣点进行新闻推送的聚合新闻APP。国内主要是以今日头条、天天快报和一点资讯等算法类资讯平台为代表。用户粘连性强、渗透率高等特点使得这类平台在我国新闻 APP 市场上拥有极高的市场占有率。个性化新闻推送已经成为新闻市场的“新星”,新闻产业的市场格局在个性化新闻推送的驱动下正在发生着变化,整个新闻生产业务链条正在面临重塑,新闻生产环节和用户接收环节都呈现出若干前所未有的新特点。
一、新闻生产的智能化数据驱动范式:数据引擎成为内容“标配”;激活“长尾内容”
传统的新闻生产是一种依赖新闻生产者经验的规模化生产,相对而言带有精英主义的傲慢。而个性化新闻推送引发的新闻生产是一种 “新闻内容 + 数据化精确制导”的生产方式,新闻生产者的精英主义傲慢逐步被互联网时代的数据思维和用户思维所取代。
互联网时代的用户对于信息的个性化需求广度和深度在不断扩张,新闻生产者为了满足受众的个性化需求,在产品最初环节就以用户的兴趣为出发点,把用户的需求当作目标,把用户兴趣图谱、社会关系图谱、生活习惯图谱等数据作为定制化生产新闻的基础。在这样一个过程中,新闻生产实际上是一种数据化的新闻生产,新闻生产者利用数据驱动带动业务发展和产品研发,用数据支撑新闻生产的选题、策划、制作方式等每个流程,新闻产品也更能触动用户的痛点。
同时,个性化新闻推送能够使得长尾内容得到有效利用,并且形成一定规模,内容资源得到更大力度的激活与开发。长尾需求表明商业和文化的未来不在热门产品,不在传播需求曲线的主体部分,而在于过去被视为“失败者”的那些产品——也就是需求曲线中那条无穷长的尾巴。个性化新闻推送下,通过对数据的挖掘,原来被忽视的大量的长尾信息被挖掘。这些非主流、个性化的产品需求,虽然是需求的尾巴,但是经过散落在社会各个角落中的用户的累积,形成一定规模,能够使得大量传统的新闻资源和价值被激活。
二、新闻内容分发成为专业化的独立部门
今天,传统的内容分发已经无法解决海量的内容与用户特定需求之间越来越深刻的矛盾。在这种形势下,个性化内容推送的专业分发平台应运而生,在智能化数据引擎的作用下,内容和用户之间形成新的强连接关系。与此同时,内容生产环节和分发环节顺理成章地分离开来。
新的内容分发平台是基于移动端的,集社交、搜索、场景识别、个性化推送、智能化聚合于一体的智能算法型平台,提高了内容分发的效率及个性化切合度。以今日头条为例,它的定位是一个个性化的内容分发渠道,根据用户在社交网站上发布的内容及其所属类别、用户自标签、社交关系、社交行为, 以及参与的群组、机型、使用时间等数据源,推断用户的兴趣点,对用户进行画像,并根据这些兴趣的重要程度或者先后顺序进行推送,从而实现个性化新闻推送。
根据这些数据,用户与信息之间实现了精确匹配。它推送的内容来自两方面,一方面是对网易、腾讯等各大门户网站的新闻进行内容聚合合, 另一方面则是其头条号下汇集的自媒体内容。它不生产内容,只专注于内容的分发,使得用户直接与信息源对接,这实际在某种程度上保证了新闻的客观性和新闻资源最大限度的利用和开发。
一、内容不契合用户兴趣点
个性化推荐对数据的数量与质量要求较高,多数新闻资讯类APP要面对大量历史阅读记录为空白的新增用户。基于此,个性化推荐效果远不如热门推荐效果。另外,无论是基于内容的推荐还是协同过滤算法技术,本身都存在一定的缺陷。如无法对文章内容进行深入处理,只能从文章特有的高频关键词进行标签层面的相似度匹配,话题层面肤浅,无法与用户气质、性格、生活方式等进行深层次匹配,难以满足用户细腻的心理需要。
二、伦理冲突
“数字系统以清晰的方式,和它们根植于其中的文化紧密地融合在一起。”托马斯· 克伦普在其著作《数字人类学》中直截了当地指出,人类建构的数字系统就是人的镜像系统。不可否认,人类社会充满着各种各样的歧视,世俗社会的民族、宗教歧视,商业社会的金钱歧视,政治社会的权力歧视等,在利益交织的社会中不断变种。作为同构现实的表征机制,算法新闻的设计是人主导的,不可避免地会受到价值干涉,尽管许多公司极力回避这个问题。以客观、公正的科学名义设计出的算法难免会有“变种”的歧视,而这个歧视也将变得更加隐蔽。
纯粹的个性化推荐系统缺乏对文章的质量与内容的把关,终极目的就是实现流量最大化。因此,用户在猎奇心理驱使下点开的低俗内容就会得到广泛地传播。如早孕网红、淫秽色情等内容严重破坏了网络生态环境。技术哲学家安德鲁芬伯格的技术批判理论认为技术不是一个中立的工具,而是会带有自己的价值观与偏好。然而平台方的默认失责,使得算法被错误的价值观俘获,低质内容流行网络。不仅如此,新媒体成为了假新闻的重灾区,个性化推荐在不经意间成为了谣言滋生的帮凶。
三、信息茧房与信息成瘾
由于个性化推荐系统时根据用户已有的阅读偏好进行关键词匹配与推荐,因此相似度低的内容基本不会被推荐。在一次又一次阅读自己喜欢领域的信息后,用户不断地在自己与世界之间筑起一座高墙,许多人沉溺于这样的拟态环境中不能自拔。信息成瘾与信息茧房是一枚硬币的两面,个性化推荐应用在被用户使用的过程中,由于算法不断贴合用户想看的内容,使得用户的欲望不断被满足,构成了一个正向反馈,使用户形成心理依赖。
四、权利冲突
算法的权利冲突主要体现在两方面:一是用户信息的“被遗忘权”,二是内容原创版权。个性化推荐算法“记住”了用户的阅读喜好,但是对于用户而言,被记住不一定是好事,用户同样存在着让算法忘记他过去喜好的需求。另外,算法只负责推荐,并不知道文章由谁撰写,以及是否涉嫌抄写。事实上,许多企业的推荐系统中的文章数据,是从其他网页抓取的,换句话说,是未经授权的窃取。
一、技术革新
传统的推荐算法范式本质上就是热门推荐补充关键词匹配,要实现有效传播,在技术上必须不断革新。对于协同过滤算法中存在的不恰当推荐问题,在应用上可以增设一个界面,允许用户设定明确地不想被推荐的话题,增加算法的可预测性和可控制性。另外,应当加强内容的审核,有针对性地开发出一套机器学习系统,根据文本关键词等特征识别出低俗内容,以人工审核为辅助,守住内容底线。
二、构建优质内容生态
从内容生态的构建角度,互联网企业应当考虑整个个产业的长远发展,将回报向优质内容的生产者倾斜,同时遏制低俗内容的蔓延。作为互联网公司,要改变单纯追求用户时长的KPI(Key Perfoemance Indicator,关键绩效指标)评判标准,注意内容的消费升级。其次,监管自动化内容审核系统已经有了长足的进步,但是依然需要一套人工审核系统来完成最后的内容放行。要积极通过立法方式规范监管,鼓励优质主旋律内容的生产与传播。同时,政府机构应当充分发挥作用,对市场调节失灵的情况进行合理干预,让信息流消费市场不至于沦为低质量内容循环生产的垃圾堆。
三、克服“信息茧房”
个性化推送带来的“茧房”效应问题可以通过对用户潜在信息需求的挖掘来解决。社交网络时代,用户的需求半径即社交半径,活动范围即场景化需求。要想进一步满足用户的潜在需求,需要获取用户的社交数据和场景化应用数据,结合用户的社交特征和场景进行个性化新闻推送。对不具备社交媒体基因的个性化新闻推送平台而言,要获取核心社交数据,必须打通行业壁垒,广泛开展技术共享或资本层面的合作。场景化数据反映的是用户随时随地的动态需求, 用户日常生活的活动范围就是用户可能产生场景化新闻需求的突破口,通过技术手段对用户的活动范围进行精准的画像,结合LBS等技术,就可以优化场景化新闻资讯信息供给和服务。
■ 参考文献:
喻国明, 侯伟鹏, 程雪梅. 个性化新闻推送对新闻业务链的重塑[J]. 新闻记者, 2017(3):9-13.
唐旭军主编;吴信训,黄楚新副主编,中国新媒体发展报告NO.9 2018,社会科学文献出版社,2018.07,第185-199页
■ 相关:
■ 编辑:小咸鱼、阿璞
点击阅读原文,可以直接咨询客服报班
以上是关于笔记收藏解读蓝皮书:新闻推荐算法专题的主要内容,如果未能解决你的问题,请参考以下文章
JavaWeb SSM 《精品毕设》基于移动端的新闻推荐系统(Python推荐算法) 前台 + 后台(源码 + 论文)主要实现的登录注册主页推荐算法推荐文章热度用户推荐文章推荐等
新闻推荐系统:基于内容的推荐算法(Recommender System:Content-based Recommendation)
新闻推荐系统:基于内容的推荐算法(Recommender System:Content-based Recommendation)