QQ音乐推荐系统的精细化调控

Posted DataFunTalk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了QQ音乐推荐系统的精细化调控相关的知识,希望对你有一定的参考价值。


分享嘉宾:Bill 腾讯音乐

编辑整理:Hoh

出品平台:DataFunTalk


导读:大家好,我是来自QQ音乐数据科学团队的Bill,接下来由我给大家分享QQ音乐在内容理解和精细化运营方面的一些实践和经验,副标题是推荐系统的精细化调控,相比于前面分享的一些硬核的算法模型和系统架构,我这里更多会介绍一些更显性的、更具可解释性的一些数据驱动方法在内容精细化运营场景的应用。

本文主要分为5部分:第1部分会介绍业务背景、总体解决方案和收益,第2~4部分分别介绍内容理解、运营中台、投放系统的具体实现方案,最后做一个简单的总结和展望。

01

背景与方案

QQ音乐作为一个以PGC内容为主的一款产品,编辑运营的内容占据了用户消费的很大一块流量,运营的诉求是多种多样的:比如新歌运营,重点流派运营(像国风、说唱、韩流等),以及综艺影视歌曲、热点事件或热点歌曲艺人、重点节日或活动的运营等等。

一方面,我们传统的运营手段是通过左边这张图中的 音乐馆 tab 里面的各个入口进行人工配置的,它存在的问题是:

  • 比较依赖人工,甚至有时候需要7*24小时处理;

  • 入口众多且比较分散,基本无法联动;

  • 运营的标准差异较大,缺乏数据反馈;

  • 能够展示的内容较少,主要聚焦与头部艺人的内容,没法对海量长尾内容做扶持。

  • 另一方面,我们的推荐系统有很好的数据和模型驱动,也占据很多用户的流量,如右图中推荐tab的图所示,但是它没有运营可介入的抓手,而且也存在以下的问题:

  • 太过于聚焦短期的数据表现;

  • 内容策略的实验和调整成本太高,比如多加一个召回通路做扶持这个过程还是很漫长繁琐的;

  • 对新冷的长尾内容不够友好,虽然也有一些内容冷启动的方案。

  • 总而言之,就是运营需求多样化和运营工具手段缺乏的矛盾,以及内容运营缺乏数据驱动和精细化的能力,是我们面临的两个很重要的问题,这严重阻碍了我们对优质内容的扶持和宣发。

    为了解决这两个主要问题,我们参考业界特别是一些广告投放系统的思路,并结合我们内容运营宣发场景做了一些创新,接下来是我们解决方案的主要思路。

    我们解决方案的整体目标是,在保证当前用户体验的前提下,通过精细化运营使流量收益最大化。这里用户体验主要是指推荐场景下用户的完播、时长、次留等核心体验指标;而流量收益则包括我们运营的内容的播放份额提升、用户时长的提升,以及通过扶持音乐人的优质作品,吸引更多优质音乐人并创作更多优质作品等。

    具体的思路是分3步走:

  • 首先是内容理解,也就是建立一套科学的、完备的内容价值评估和挖掘体系,达成对重点内容的“知而善用”和潜力内容的“伯乐识马”;

  • 其次是内容扶持,基于科学的内容评估和高效的宣发能力,实现重点内容的扶持目标,保障流量分配的平衡和流量价值的最大化;

  • 最后是智能宣发,构建以实时数据表现为正负反馈的智能宣发投放系统,接入多个中心化和个性化点位,获取最优的宣发收益。

  • 整体的技术框架如上图所示:

    自底向上是一个内容甄选的金字塔,最底下是完整的曲库,经过一些版本、时长、流派标签、上架状态等条件的过滤,到我们的基础内容池。对这个基础内容池,我们区分中头部内容和长尾内容,分别进行内容的价值评估和潜力挖掘。

    内容价值评估的结果,主要通过内容运营中台,作用于个性化的排序阶段,提升待扶持内容的排名,通过点位流转后,用户反馈的数据又回到内容价值评估当中,形成一个数据驱动的闭环。

    内容潜力挖掘的结果,主要通过精准投放系统,以精准匹配的方式直接触达到用户,同样的也通过实时收集用户反馈,对投放任务进行实时的流量调控,形成另一个数据驱动的闭环。

    随着QQ音乐全面个性化的不断深化,个性化的流量已经远超中心化流量。下面以个性化场景为主线(也是我本次分享的副标题——推荐系统的精细化流量调控),来看下以上解决方案在各个推荐模块中的调控方式:

  • 内容价值评估和潜力内容挖掘主要作用于内容准入和召回阶段,增加内容的多样性;

  • 内容运营中台主要作用于排序阶段,作为排序模型的重要特征或直接作为排序分中重要的因子;

  • 精准投放系统则主要作用于重排阶段,强插在推荐结果中给到用户。

  • 从左到右,推荐内容候选集的大小越来越小,而本解决方案对流量的干预程度越来越大。

    通过这些调控,我们不仅没有损失用户体验,还在各方面都有一些提升:

  • 比如我们内容评估和挖掘使得准入歌曲数提升了10%以上,并且作为排序特征也使得人均时长和完播分别提升了10%、20%以上;

  • 而通过内容运营中台,我们使得音乐人等重点内容在推荐点位的播放占比相对提升超过47%以上;

  • 在投放系统中,内容的平均完播也是高于各自点位的平均完播的。

  • 02

    内容理解

    在内容消费行业,一个常见的现象是:少数头部的内容占据大多数流量,而尾部很多的内容占据了很少的流量,比“二八定律”会更为夸张,头部内容的数量就如图中冰山之一角,可能只占据了5%~10%,但这部分内容却占据了90%~95%的流量。

    在这个大的背景之下,分摊到每一个长尾内容上的用户反馈数据非常稀缺,我们很难获取到高置信度的用户反馈。更加雪上加霜的是,我们每天还有大量新上架的内容,这些冷启动内容的价值评估也是我们面对的难题。

    我们解决这些内容质量评估的整体思路是“分而治之”:

  • 对中头部内容,使用用户反馈数据为主

  • 而对长尾内容,则结合稀疏的用户反馈以及内容本身的一些属性来挖掘和探索

  • 对完全冷启的内容,则只通过音频、歌词等内容本身的信息来理解和挖掘了

  • 据此,我将我们内容理解分为三大块,接下来重点介绍其中“价值评估”和“潜力挖掘”的部分,每一个部分又会分为三个小的方向进行介绍。

    首先是内容价值的离线方案。这里主要是分为基础评估指标和业务策略维度,其中重点介绍下最重要的用户互动质量评估的方案。

    互动质量这里主要由四部分的原子数据组成,其中前3个是比率型指标,最后1个是绝对值指标。对于比率类的指标,一个常见的问题是,在数据量较小的时候置信度不高,这里我们的解决方案是使用“贝叶斯平滑”,当I (Impression,曝光或播放)和 C(Click,点击或完播、搜播、收藏分享)都比较小的时候,评分 R 的平滑值就接近于大盘的均值。而对于绝对热度的指标,头部和长尾的数值差异较大,这里我们使用类似牛顿冷却定律的方式对热度做指数型衰减。

    最后所有的指标做归一化后进行线性加权,得到综合的互动质量分。

    其次,是内容价值评估的实时方案。这里主要有以下几个点:

  • 多个来源的数据流不是通过join,而是先分别聚合,然后用union的方式融合到一起;

  • 在中间结果的基础上再join内容属性或用户属性的数据,这里是通过异步io+缓存的机制;

  • 在以上计算的基础上,区分不同大小的滚动时间窗口,进行二次聚合,这里短期窗口和中长期窗口分别能够处理及时性和稳定性的问题,同时多种时间窗口也能刻画出实时飙升的趋势;

  • 最后结果双写到线上的es和离线的tdw数据仓库,可同时进行线上应用和离线分析。

  • 下方两图是时间窗口的示意,包含我们实时评估中用到的滚动窗口和滑动窗口的示意,其中三个长度的滑动窗口有一个(短期)实际也是滚动窗口了,另外两个(中期和长期)是前后有重叠部分的滑动窗口。

    接下来是我们对内容未来热度和质量的一个预估方案。这里主要采用的是一个时序的神经网络模型,也就是TCN,它是以CNN为基础,并做了这3点改进:

  • 因果卷积:不考虑未来的信息,隐藏层越多考虑的历史信息越久远

  • 空洞卷积:在标准的卷积里注入空洞,以此来增加感受野

  • 残差模块:避免梯度消失或爆炸,并解决网络退化的问题

  • 以上是我们在内容价值和质量评估方面的解决方案。接下来是我们在长尾内容的挖掘和理解方案。

    首先是基于内容本身的内容理解,我们综合考虑了歌曲需要具备的特质,构建了基于深度神经网络的潜力挖掘模型 - PDM(Predictive Model)。具体而言,主要分为两大块:

    底下部分是多维度的歌曲理解:一首好歌,在演唱、歌词、旋律、节奏等角度,都不应该存在问题,并且至少在某一方面有足够的亮点。因此,PDM技术会对歌曲进行“拆解”并分别建模,力求全方位的衡量歌曲的质量和潜力。在建模时,我们充分调研了当前业界领先的技术,并对现有技术更进一步地创新自研,力求更好的描述每个维度。最后,我们使用深度学习框架将各个维度的信息综合起来,从而给歌曲一个更加客观的评价。

    顶上部分是多角度挖掘好歌:不同用户喜好的歌曲风格往往不同,喜好的表现也相对多样化,例如有些用户听到好歌会收藏,有些用户则会进行评论等。在圈定学习目标时,我们精选了多个用户群,并采取多种指标来描述用户的喜爱程度和歌曲的爆款潜力。通过对用户群和指标的组合,我们训练了一系列模型,力求从不同的角度挖掘到好歌。

    其次是基于用户行为的潜力挖掘,我们从业务场景出发,通过对QQ音乐海量用户进行挖掘,圈定眼光独到、对社媒歌曲先知先觉的优质种子用户。

    一方面用这些用户的搜索、播放、收藏、分享等行为,借助PageRank等算法对歌曲的潜力值进行投票打分,实现了无监督的潜力挖掘,避免了繁杂的数据打标和正负样本比例悬殊的问题。

    另一方面,用这些用户的听歌等行为的序列,对内容进行嵌入表达,得到User-based Embedding,为后续与PDM融合打下基础。此外,为了弥补交互数据较少或缺失的内容无结果,解决内容“冷启动”问题,我们使用了更多的图模型,如node2vec、EGES等,引入歌曲与其作词、作曲、演唱等信息的关联图谱,并通过随机游走和嵌入表达,得到SideInfo-based Embedding,然后通过一个隐层进行融合,得到综合的黑马Embedding。

    最后,在以上两部分的基础上,结合基于内容本身和基于用户行为两种内容理解的优势,作为内容在节奏、旋律、音色等空间的嵌入表达(PDM-Embedding),同时使用序列表示、图表示等方法将种子用户对歌曲的操作信息生成基于用户的嵌入表达(User-Embedding),并引入歌曲的作词、作曲、演唱者与歌曲关联的异构网络图谱,生成基于歌曲辅助信息的图嵌入表达(SideInfo-Embedding),最后通过深度神经网络,对上述Embedding进行进一步学习,实现了同时兼顾及时性和精准度的多模态潜力优质内容挖掘模型(MetaPDM),该融合模型不仅从音频和歌词等内容维度表征和建模歌曲,还会考虑到播放、收藏等用户行为,以及内容的创作者等知识图谱数据,实际挖掘和投放表现相比单一类型的模型有进一步的提升。

    以上就是我们整理内容理解的主要解决方案了。接下来介绍一下我们是如何应用这些内容理解的结果的,分为两个大章节来介绍,首先是内容运营中台。

    03

    内容运营中台

    内容运营中台主要是为了解决两类大的问题:一个是召回阶段的内容池圈定的问题,另一个是排序阶段内容排序的有目的的调控问题。系统整体的框架如上图所示:

    最左边是我们离线和实时内容评估和挖掘的结果,分别通过spark和flink流转到我们的存储层。

    存储层主要分为两级,包括es和ckv,其中es搭配kibana,既可以方便的进行相对复杂的脚本字段配置,又可以配置一些可视化的监控看板。在es的基础上还会加上一层ckv+的缓存层,以应对高qps的线上服务。

    接下来是我们的服务层,主要是对外提供可灵活筛选的内容池服务和内容评估指标的参数服务,这两个服务都接入了我们的abt平台的用户分流,并且支持策略的可配置。

    最后是我们的应用层,分别是个性化的召回服务和个性化的排序服务,其中个性化排序服务会将模型分和内容价值评估分进行线性加权后作为最终排序。

    接下来我们重点介绍下这里内容池服务和参数服务的一些具体细节的实现。

    首先是内容池的服务。内容池服务作用于推荐的召回阶段,作为主推荐召回路径的一个补充。

    它的背景主要是因为推荐准入池缺少很多我们需要扶持的内容,或者我们挖掘的冷门优质的内容。这些内容只有加入到我们的召回通路,才有可能在后续的排序、重排以及最后被用户播放到。

    相比于推荐准入池另外的一个差异在于,我们内容运营中台有很多垂直类别的小池子,包括不同场景的精选池、不同语种流派的垂类池、不同圈层下的冷启池等等,

    这些池子在之前是离线计算+导出文件+编辑审核+数据入库和上线,这里是缺乏一些数据流转和审核干预的工具的,整体效率比较低下。

    内容运营中台封装的内容池功能,就解决了这些问题,提供方便的数据流工具和运营审核平台,同时后续也会引入一些基于数据反馈进行内容池的持续迭代的能力,包括ab实验和准入退出的功能。

    接下来是内容中台第2个重要的服务——参数服务。参数服务主要提供内容价值评估的策略配置和ab实验的能力。

    下面第一个表是我们的内容价值评估结果的示意图,横向的是歌曲a、b、c、d,纵向的是内容在各个指标上的评估分数;第2个表格是我们的策略配置方案,实际中并不需要每一个评估指标都需要配置系数,只需要配置非0的部分即可。

    那么综合这两个数据,在时间点t,内容的综合倾斜分数即为以下公式所示,其中S为m个内容在n个指标上的评分矩阵,P为某个实验策略的参数向量。

    这里举了几个案例:

    第1个是线性的策略,直接返回基于音频的内容评估分,可作为排序模型的特征参数。

    第2个是动态的非线性策略,对特定圈层的用户,使用实时评估分作为变量的函数g的变换后的值g(S2)作为该指标系数,再与其他指标加权作为最终倾斜分。

    这两个都相对简单的,还有一个相对复杂的是我们的EE模型:

    EE模型是Explore-Exploit(也就是探索-利用策略),具体而言z是实时价值分,而x和y分别是大盘和单首歌曲的播放量。

    当y小于探索阈值N时,内容的综合倾斜分数是由实时评估收益和收益置信上界(UCB)两部分决定的,当y较小的时候,会给予内容更大的置信上界倾斜;当y达到一定量,内容的实际收益比较稳定可信了,就以实际流量收益为主要影响因素。最后内容曝光的概率是这个正比公式决定的。

    这里应用的场景主要是一些音乐人的新歌,或者潜力挖掘的冷门优质歌曲的探索和扶持。 

    以上就是我们内容中台的主要解决方案和思路,它是对推荐的排序阶段进行干预,达到不影响用户体验的同时,对特定内容进行扶持的。接下来介绍下我们在重排阶段进行干预的方案,也就是我们的精准投放系统。 

    04

    精准投放系统

    在介绍投放之前,我们先来对比下投放系统和推荐系统的差异:

  • 首先,从本质上来说,推荐系统是为了迎合用户喜好的,是根据用户去找最喜欢的内容;而投放本质则是根据内容来找用户,本质是将用户的流量进行变现的。

  • 从整体架构上看,推荐系统需要从上百万的候选池中去选择合适的内容推给用户,而投放则一般只有几百到几万的内容量,所以基本不需要召回层。

  • 从评估指标上看,投放系统除了用户体验指标外,还有任务完成率等诉求。

  • 从内容特点上看,投放系统中大部分内容是新冷内容,更需要注重解决冷启动的问题。

  • 最后是投放系统要保证任务完成率,就需要对任务进度进行把控,需要有保量机制。当然,如果某些内容质量确实一般,但需要的量又大,对用户体验损失比较明显,我们也需要有退出机制,来保证用户体验不受太多伤害,而不是一定要完成保量。

  • 接下来重点介绍下我们投放系统的整体解决方案:

  • 最左边是我们运营管理平台,包括业务方管理、任务管理以及渠道管理。

  • 中间是我们核心的投放后台服务部分,包括三个大的模块:排序、重排、用户体验。其中排序有多个算法的迭代过程,而重排主要是基于内容反馈和任务进度的一些调控机制,用户体验则包括离线投放用户画像和实时的任务退出机制。

  • 最右边是我们用户侧的一些点位。

  • 接下来重点介绍下中间这部分的实现方案。

    首先是我们排序模块的最初版算法,基于用户画像和内容属性标签的匹配,主要是应用在有预设保量投放量的场景,使用余弦相似以及xgboost进行用户的内容的匹配和排序。

    另外一个场景则是对批量内容没有保量要求,但需要测试那些内容更优质的场景,这种则采用右边这种分级分发的模式,前提也是用户和内容的流派标签完全匹配,在投放的过程中再根据实时反馈来决定是否需要给予更多的流量。

    以上两种都是相对简单的投放逻辑,在项目初期投放的内容质量有一定保证的情况下,对用户体验的干扰也很小,但随着后续参差不齐的投放内容引入,我们也升级了投放匹配模型。

    也就是我们现在的AE和DeepFM模型,这里AE是指audio embedding。在之前用户和内容的流派、语种、歌手等基础之上,新引入了音频本身的向量表征,用户侧的AE则用用户近期收藏或完播的歌曲的AE的均值来表征。

    用户和内容的特征经过特征拼接后,输入到DeepFM的Dense Embedding层,分别通过FM部分进行特征交叉、DNN部分进行high-order的特征抽取,最终线上效果相比xgb在完播率和投放量上都有显著的提升。

    以上就是排序模型部分的主要方案。

    接下来是我们的重排模块。投放这里的重排主要背景是,如果只按照排序模型来决定投放,会有很多任务投放进度比较滞后的问题。所以重排这里,主要会考虑任务进度、任务优先级以及实时效果来进行排序的调整,从而最终决定投放的内容。

    重排的分数是如右边这个公式来计算,其中主要的指标有以下几个,除了模型预测分之外,还有任务的流派倾斜因子、任务的投放进度和时间进度等。

    最后是我们在投放用户体验上的一些努力和探索。

    首先是离线的投放用户画像,将用户对投放内容的完播收藏等数据,和非投放的推荐完播收藏数据,刻画用户对投放内容的接受程度,将接受程度高的称为探索型用户,接受程度低的称为保守型用户,然后对这两类用户分别做多投或少投的策略,下面表格是我们这个策略线上实验的一些效果。

    另外一方面,我们在任务投放的过程中,还会做实时反馈的评估,对于反馈较差的内容给予警告和退出的逻辑。集体而言,是在一个基础时间和投放量保量的基础上,判断实时反馈是否低于平均效果超过一个阈值,超过之后任务就直接终止退出了。 

    以上就是我们整体内容精细化运营的解决方案了,最后做一个总结和展望。

    05

    总结和展望

    总结一下,以上解决方案的主要收益包括:

  • 内容价值评估的新热内容和潜力挖掘的优质内容接入推荐准入池,使得准入池歌曲数量提升10%;作为排序模型的物品特征,人均时长提升10%,完播率提升超过20%;

  • 通过内容中台参数倾斜和投放运营,重点扶持内容播放占比提升超过47%;

  • 内容投放系统的运营内容接入重排通路,投放内容的平均完播率高于点位的平均完播率。

  • 此外,我们也在探索一些其他场景和应用,比如我们的“下一首心动”AI歌单,以及银河计划中音乐人优质作品甄选和宣发推广等。

    展望未来,我们正在进行中和规划中的工作主要包括:

  • 内容理解:进一步完善内容评估体系,尝试更多的潜力内容挖掘算法,助力更多优质内容的发掘;

  • 内容中台:基于Flink实践在线学习、强化学习以及多目标分发;

  • 内容投放:结合用户行为的音频内容理解优化,实时look-alike算法等;

  • 应用推广:更多可控流量场景&更多业务平台。

  • 06

    精彩问答

    Q:如何定义保守型和探索型用户?

    A:我们这里的保守型和探索型用户主要针对投放场景进行用户画像刻画的,因为投放场景有很多新冷内容,这些新冷内容我们很难学习到他们的序列embedding特征,但是通过我们的投放系统给到用户,是能购获取到用户对这些新冷内容的偏好度的,这样我们就可以训练和预测用户对新冷内容的偏好度了,偏好度高的就是我们的探索型用户,偏好度低的是保守型用户。 

    Q:内容扶持占比达到了50%,那如何保证不影响用户体验指标的?

    A:这里的提升是相对的提升,相比于之前提升接近50%,并且是在不影响用户体验指标的前提下做到的,而不是说提升到占推荐整体流量的50%,相对的提升是比如说从之前的占10%提升到占15%这样的,所以用户体验指标是可以做到不损失的,我们是通过ab实验来看这两部分指标进而决定策略是否可以全量。

    Q:新歌曲和新歌单是如何来做价值评估的?

    A:这里主要是通过潜力内容挖掘的方法去预测的。因为我们有很多上架时间比较久的内容,他们有丰富的用户互动数据,有真实的完播率、收藏率以及热度等信息,这些内容的数据是我们完全基于内容本身挖掘内容质量或热度的学习样本,通过这些样本学习到的模型,应用与新内容的预测上。

    Q:内容挖掘里怎么样圈定种子用户的?

    A:这个问题很好。我们有简要提到过,种子用户主要是从我们平台的核心用户,包括优质歌单的创作者,以及对热门歌曲有前瞻性或热衷于“火钳刘明”的,在热门歌曲还没有火爆之前就主动去发掘优质冷门歌曲的用户,这些作为我们基于规则圈定的原始种子用户。在此基础之上,我们还会去根据当前场景,构造一些用户特征,并通过lookalike的方式去扩充种子用户的范围。

    Q:内容倾斜的参数怎么定?线性组合的权重怎么定?

    A:这个问题也很好。其实在参数服务做倾斜的时候,例如腾讯音乐人扶持的那个案例,我们首先是一个人工经验给定的一个系数,然后在线上实验时根据实时效果去动态调整的,实时效果好的会给予更大的倾斜分数。另外一个问题,线性组合的权重方面,主要是基于内容评估原子指标的数据分布和统计指标,如均值、方差等数据,给定一个初始的权重系数,并且会引入一些人工经验,比如对完播会给予相对更大的权重,因为它的数据相对不那么稀疏;在此基础上,我们还会通过一些线上ab实验来寻参。

    Q:能举例介绍下一个音乐的生命周期吗?比如新音乐冷启动、如何进入精选池、后面平稳期、淘汰期、再漏出之类的?

    A:随着短视频平台的兴起,其实音乐内容的生命周期是在逐渐缩短的。对于我们平台内部,对内容冷启,我们主要是通过一些潜力内容挖掘和评估的方法,将预测的优质新内容通过内容池给到推荐的召回,并在排序阶段加入一些倾斜,达到对新内容冷启的加速。但是当冷启完成之后,后面的平稳、淘汰期我们就不再做过多干预了,它就自凭本事了。

    Q:内容label用flink聚合的等待窗口多大,比如有些长视频的完播时间比较长,如何权衡不同label流水的时间窗口?

    A:首先这里播放流水是播放完成或者说切歌的时候才会上报的,所以这里不存在等待的问题。然后对于长音频内容,我们是需要单独去做评估的,在长音频内容内部做实时评估和排序的。

    Q:推荐系统和投放系统流量是如何结合的呢,比如一个Q音内容页面,哪些内容是推荐的,哪些是投放的?是与广告相关的内容都走投放系统吗,还是说投放系统都是负责分发冷启内容?

    A:我们的投放内容和推荐内容是动态排序的,投放内容与推荐内容最后会做再一次综合的重排。我们这里说的投放系统主要是音乐内容的投放,不含广告内容,然后我们的内容投放不只是对新冷内容的,也有大约20%的非新冷内容,这些主要是我们需要大力宣推的,希望能触达更多用户。

    今天的分享就到这里,谢谢大家。


    在文末分享、点赞、在看,给个3连击呗~


    分享嘉宾:

    活动推荐:

    12月18日,在DataFunCon年终大会上,我们将出品推广搜论坛,对推荐系统、内容理解、智能投放感兴趣的小伙伴,欢迎识别下图二维码,了解详情,并免费报名收看!

    关于我们:

    DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+,百万+阅读,12万+精准粉丝。

    推荐系统的人工调控

    作者丨gongyouliu
    编辑丨gongyouliu
    这是作者的第31篇文章,约1.1w字,阅读需60分钟


    随着移动互联网的深入发展,推荐系统越来越得到企业界的认可,成为toC互联网公司的标配技术。推荐系统借助机器学习技术,基于对用户行为的挖掘,能够洞察用户的兴趣偏好,自动化地为用户生成个性化的内容推荐,整个推荐的过程基本可以做到完全自动化,不需要人工干预。虽然很多方面机器可以比人做得更好,但机器也有自身的问题和缺点。目前的人工智能在情感、应急处理、复杂问题决策等很多方面还根本无法与人相比,这些方面都可以很好地体现人类的价值。在推荐系统中,这一情况也存在,推荐系统需要借助人工来进行策略调控,以获得优质的用户体验、更好地实现商业目标。

     

    利用人工对推荐系统进行策略调控,除了用户体验的考虑外,还有安全性、商业价值等维度的权衡。这篇文章我们就来讲讲推荐系统中的策略调控问题。具体来说,我们会从什么是推荐系统的人工调控、为什么要进行人工调控、怎样进行人工调控、怎样评估人工调控的价值、人工调控面临的挑战、人与机器的有效配合等6个角度来介绍相关知识点。通过本文的分析和讲解,希望读者可以更好地理解人工调控在推荐系统中的作用与价值。




    一、什么是推荐系统的人工调控


    企业级推荐系统进行推荐的流程一般可以分为召回、排序、业务调控3个阶段(见下面图1),这其中的第三个阶段业务调控就涉及到人工调控策略,这只是其中一种可行的干预方式,也是比较重要的一种干预手段,后面我们会详细讲解在这里可以进行哪些干预。


           图1:企业级推荐系统三阶段pipeline架构


     

    一般来说,一切对推荐系统运行过程中的策略和模块进行人工调整的方法都叫做人工干预。广义地说,选择什么样的数据集、选择什么模型、怎么定义参数、对模型结果的干预等等都属于人工干预的范畴。这些干预的过程很多是算法人员进行的干预(如特征构建、模型选择、参数选择等),在本篇文章中我们指的干预是指产品运营人员对推荐系统进行的产品策略、运营策略层面的干预,后面统一称为运营干预。作者在《》这篇文章的第二节3中对运营团队对推荐系统的干预进行了简单介绍,至少包括如下3种干预方式:

    (1) 调整位置与展示;

    (2) 干预具体的推荐结果;

    (3) 对算法逻辑的干预;

     

    这只是一部分干预方式。一般来说,运营策略的干预包括算法之前的干预、算法过程中的干预、生成推荐结果之后的干预三大类,我们在第三节会进行更细致的讲解。上面提到的运营人员的三种干预属于结果和过程的干预。

     

    大家了解了什么是人工干预,下面我们来分析一下为什么要进行人工干预,人工干预到底有什么目的和价值。



    二、为什么要进行人工调控


    推荐算法与人工调控的关系,类似于经济学中的市场机制(market mechanism)和宏观调控机制(macro-control mechanism)。推荐算法根据用户的行为构建模型进行推荐,是用户在平台上的自然行为的有效挖掘,这与市场机制是通过市场竞争配置资源(即资源在市场上通过自由竞争与自由交换来实现配置)的机制是非常类似的。人工调控是通过引进人工策略对推荐系统的运行加以优化、调节、引导,这与宏观调控机制是在国家层面统一协调下以计划、财税、金融手段为主,通过间接手段调控、引导市场活动也是非常类似的。

     

    人工调控的作用是非常巨大的,也是非常有必要的。就拿肆虐全球的新冠病毒来说,中国进行了大量的政策和人工层面的干预,比如隔离、封路、封交通工具、医疗物资的定向供给等等,通过这些干预很好地控制了疫情,而西方国家由于政治体制的不一样,很难做到中国这样的有效干预,因此,疫情控制不容乐观。

     

    在推荐系统中,人工调控的作用同样不容小觑,人工调控的主要目的是解决机器学习算法比较难解决的问题而进行的有效策略补充。一般说来,之所以进行人工干预,主要是满足如下5类需求,下面我们来分别详细介绍。

     

    1. 用户体验

    推荐系统除了需要精准地挖掘出用户的兴趣,推荐用户感兴趣的标的物外,还需要满足惊喜度、多样性、新颖性等需求(读者可以参考《》这篇文章了解更多推荐系统评估指标及细节)。这些需求很多都是比较抽象的,机器学习算法很难量化,因而很难做好,需要人工增加一些策略上的补充和控制。

     

    在视觉上也可能需要根据特定情况进行调整,下面图2中绿色矩形框住的部分就是在双十一这个特定时间点做的特殊配色和UI,图中这一区域也是淘宝个性化推荐的一种产品形态。通过在双十一做这种调整,烘托出节日的气氛,提升用户的视觉体验,让用户更有点击的冲动。一般在重大节日、重大事件或者运营活动时,都可以做UI方面的调整,以营造气氛,提升用户感知度,优化体验。

     

           推荐系统的人工调控      

    图2:淘宝双十一个性化的UI展示

     

    对热点事件的把握、对内容的深度思考和深度关联,有专业素养的编辑运营人员是强于机器的,通过整合专业人员的理性思考,并将这些思考整合到推荐系统中,有助于提升标的物的浏览、点击、分发与转化,最终提升用户的满意度。

     

    2. 安全性

    在某些行业(如视频、食品等)安全性至关重要,需要对待推荐的标的物进行人工把关,避免推荐不合适的标的物。比如一般电影都是有分级策略的,电影分级策略是指根据发行的电影中包括的性爱、暴力、毒品、粗俗语言等在内的成人内容的量和程度将其划分成特定级别,并给每一级定义好允许面对的观众群,以便运营人员有参照地、选择性地进行内容运营,避免在不合适的时机给不合适的用户推荐不合适的内容,起到促进所有观众身心健康的作用(读者可以看看参考文献3了解今日头条和Facebook在这方面遇到的麻烦)。绝大部分国家和地区如美国、英国、日本、中国香港等都有完善的电影分级制度。在部分国家,电影分级制度不具有法律效力,但在行业内部具有约束力,只对观众起提示的作用,由观众实行自我保护。对于这类内容需要制定一些人工的策略,比如在家庭电视上,偏向成人的内容需要在晚上十点以后进行选择性推荐等,避免小孩看到,影响儿童身心健康。

     

    随着手机摄像头技术的成熟及智能手机的普及化,UGC内容是非常重要的一块内容补充,现在主流的APP基本都提供了用户上传内容的功能,比如快手、B站、淘宝等,内容的可控性变得越来越困难也越来越重要。UGC内容的安全性把控是这些产品的推荐系统必须要谨慎思考和有效控制的问题。

     

    对于这些涉及到安全问题的内容,虽然算法可以做到一定程度的识别(比如通过AI算法进行鉴黄等),但是由于互联网信息的非结构特性(特别是图片、视频、音频等),机器处理难度较大,准确率有待提升,最终还是需要人工来处理。不过机器可以提供很好的辅助,最终减轻人的工作量。

     

    3. 商业价值

    有时需要人工制定一些推荐的策略,让推荐系统可以获得更大的商业价值。通过制定一些人工的策略,对具备不同购买力的人推荐不同价格的商品,从而获得更多的商业价值。比如对于商务人士推荐头等舱而对于一般的人士推荐经济舱等。这样做也是道德的,是可以提升用户体验的。而根据不同用户对价格的敏感度不一样,对同一件商品给不同的人提供不同的价格,从而让企业获得更多的商业利润,这种做法可能就是不道德的,就是所谓的“大数据杀熟”。

     

    获取商业价值是公司生存的基础,也是运营人员最重要的日常工作和行动目标之一,推荐系统作为一个成熟的有商业化价值的技术手段,是运营人员在进行商业化决策中的有效工具。

     

    4. 运营需要

    有时为了运营的需要也需要进行人工策略的调控。通过人工策略的引导,让资源达到某种程度的倾斜,最终让整个生态更加健康成熟,良性发展。

     

    比如淘宝等平台方在引进某些新品类的商品时,需要对它们进行一定的资源支持和流量倾斜,这时在推荐策略上会对该类商品增加更多曝光的概率,最终让该品类获得更大的市场空间。

     

    快手作为短视频平台,希望提供普惠的价值观,所以在快手中的推荐策略是给普通人平等的曝光机会,而抖音更多的是运营导向,只有爆款内容才能得到好的资源,头部效应更加明显。

     

    对于某些重大事件、节日、运营活动等,也会采取一些策略来对推荐系统进行一定的干预和引导,以配合这些事件和活动。策略的调整既可以是算法策略,也可以是UI交互方式,种类可以非常丰富。比如下面图3,头条在推荐中置顶了两条推荐,都是与新冠病毒疫情相关的新闻,就是在当下特殊时期的人工干预策略。这种策略可以让更多的人对疫情有更好地了解,起到信息普及和告知的作用。

     

           推荐系统的人工调控      

    图3:今日头条人工置顶新冠病毒疫情信息

     

    对于新功能、新模块、新产品的引流,也是常用的运营干预方式,比如头条推荐就会对问答、抖音、小视频等内容进行引流。下面图4中前面两个推荐就是对问答(悟空问答)和小视频(抖音)的导流。

     

           推荐系统的人工调控      

    图4:今日头条推荐中对问答和视频的导流

     


    5. 减少内容运营人员数量,降低人力成本

    如果在推荐系统中可以增加足够多的人力调控策略和手段,让调控手段更加灵活多样,将人的优势和机器的优势结合起来,那么所有的位置都可以给到推荐系统(或者说,所有的人工运营板块都可以整合算法能力),这样内容运营人员的工作量就会减少,也不需要这么多内容运营人员参与了,从而可以减少运营人员的人力成本。这时只需要花更少的钱招聘少量足够优秀的、对内容有深度理解的高级运营就可以了。

     

    总之,对于推荐系统来说,人工调控是非常有必要的,不管是提升公司自身利益,还是帮助提升用户体验,亦或是构建完善的内容生态,都有极大的价值。既然人工调控这么有价值,那么大家一定想知道该从哪些方面进行调控,其实前面已经零碎地讲了一些,下面一节我们来系统性地介绍。



    三、怎样进行人工调控


    前面两节我们介绍了什么是人工调控以及人工调控的目的和价值,本节我们来讲解怎么进行人工调控,有哪些调控的方法和策略,以及可以从哪些维度进行干预。

     

    推荐系统是一项非常专业化的系统软件工程,我们可以大致将推荐系统分为6个大的模块(阶段),分别是(生成)数据、(构建)特征、(训练)推荐模型、(生成)推荐结果、(渲染)前端展示的结果、(评估)推荐效果(参见下面图5)。其实,人工调控可以在这6个阶段中的每一个阶段进行控制,下面我们一一说明。

     

           推荐系统的人工调控      

    图5:可以在推荐系统的6个阶段进行人工调控

     


    1. 数据层面的人工调控

    推荐算法的数据至少包括两大类,一类是用户行为数据,一类是标的物相关数据,有些公司还可以收集更多的其他数据,包括用户相关数据、第三方数据等。一般用户行为数据用于推荐算法构建模型,具体采用什么数据、怎么使用数据构建模型都是算法工程师来决策,主要目的也是为了推荐算法更加精准,这一块一般运营人员不会进行干预。但是对于日志打点需要收集什么类型的数据,用户的每类操作对于用户是否产生点击行为的重要性等,运营人员可能会更有感觉。在这方面寻求运营人员的专业建议,对选择合适的特征、怎么构建特征等是非常有帮助的。为了收集到更多的有价值的用户行为数据,构建更有意义的特征,训练出效果更好的模型,需要算法人员跟运营人员多沟通。

     

    对于标的物metadata数据,一般用于构建基于内容的推荐模型。可以采用文本、图片、音视频等信息来构建模型,算法人员基于目前已有的数据和技术能力来自己控制怎么选择和利用这些数据。其实很多数据是需要借助运营人员来补充和完善的,比如最典型的标的物的标签,就需要借助内容运营人员的专业能力进行规范和统一化,构建完善的标签体系。完善的标签更利于构建质量好的内容推荐模型,像今日头条、Netflix等都有庞大的编辑团队对内容进行标签化。

     

    运营人员虽然对模型构建过程不需要进行干预,但对于能够推荐什么样的标的物、在什么范围内推荐标的物,运营人员是需要进行把控的。

     

    基于特殊场景、安全性、标的物质量上的考虑,运营人员一般需要控制可以推荐的标的物池,在这个池子中进行标的物的推荐。前面提到的视频安全性中,就有这样的诉求。再举个例子,在视频行业中,在首页推荐的视频的海报图一般要很清晰,很多老电影海报图质量是比较差的,这时运营人员就可以选择海报图质量高的视频(如果视频metadata中没有海报图质量这个属性,可以基于年代来粗略筛选,最近十几年拍摄的视频一般海报质量会比几十年之前的好很多),在首页只能推荐这类有高质量海报图的视频。这种属于正向选择推荐池,反向操作也是可行的,剔除掉不满足一定需求的标的物,在剩下的标的物中进行推荐,这属于黑名单策略。

     

    一般提供UGC内容的平台方,内容来源于第三方,这时推荐系统的一个重要作用是要维护好整个生态的稳定平衡。需要保证提供优质内容的生产方获得更多的曝光机会,而生产劣质内容(如低俗、标题党、低质量、暴力、性暗示、色情等)受到一定程度的限制和惩罚。这就需要采用一定的规则和策略对它们进行干预,这种干预可以采用人工调控的方式(比如选择对什么类型的标的物进行打压,打压的粒度等等,都需要人工制定规则和策略)。像快手这种提供普惠价值观(让每一个生活都被看见,见参考文献1)的APP,需要保证每个人提供的视频都可以被曝光,只要你的内容足够优质,你也可以成为热门,这里面肯定有很多人工的策略在里面,这种普惠的价值观其实就是一种最强的、价值观层面的人工策略。

     

    数据和内容是整个推荐系统的核心基础,推荐系统给予运营人员一定范围的控制能力,并多结合他们的行业经验和对内容深度把握的优势,是可以让推荐系统变得更好的。

     

    2. 特征层面的人工调控

    在这一阶段,通过特征工程,我们基于数据构建出模型可以直接使用的特征。特征是给算法用的,运营人员在这方面的调控可能更多是建议性质的。运营人员与用户距离近,更熟悉用户,更懂业务,可能更知道哪些特征对模型优化的指标是有正向价值的,哪些特征是没有什么帮助的,特征怎么进行交叉更有价值等。总之,运营人员更知道怎么构建合适的业务特征。

     

    如果算法平台可以提供一个自动化、可视化地构建特征的工具,那么运营人员通过适当的培训是可以作为(业务)特征生产者的。下面的图6就包含特征构建的可拖拽模块,有了这样的工具,运营人员就可以发挥出他们业务敏感度和专业度的价值。

     

    3. 模型层面的人工调控

    我们知道企业级推荐系统的算法模块一般分为召回、排序两个阶段(图1红色方块中前两个模块)。对于召回阶段可以有多种召回策略,内容运营人员根据自己对当下热点内容的把握和深度理解,结合当下的热点事件,可以人工整理一些优质的内容池,作为一种召回策略,这种召回方式是可以整合到整个召回策略中的,从而实现了在召回阶段中整合运营人员的专业能力。

     

    基于产品发展或者商业化上的考虑,也需要对模型进行调控。前面提到的推荐系统中需要对新功能、新模块、新产品进行引流。在信息流推荐中,还需要插入广告,利用推荐来获取商业利益。这两种方式的干预都需要运营人员干预,这种干预涉及到多种类别内容的召回,算是对模型的一种干预。其实这里也涉及到其他方面的干预,比如控制广告的次数、控制对新模块导流的比例等属于结果层面的控制,在后面不再赘述了。

     

    另外,如果推荐系统工程体系做得比较好的话,各个算法组件是可以模块化的,每个算法抽象为一个算子,算子的输入输出采用一定的数据交互协议规范化,这样就可以做到可视化、拖拽式地进行建模,我们团队也是采用这种思路做的,最终实现了一套模块化的推荐系统框架Doraemon,可以像搭积木一样构建推荐算法体系(《》这篇文章中有关于Doraemon框架的讲解,想了解的读者可以看看),不过我们还没有做到可视化、可拖拽的构建模型,这也不是我们当前阶段主要考虑的事情,对我们团队价值不大。

     

    下面图6就是阿里云的PAI机器学习平台(包含推荐相关算子),思路也是一样的,并且做到了可视化、可拖拽式建模。做到这个程度了,运营人员只要懂算法的基本原理,就可以自己利用该平台进行机器学习模型的构建与测试,可以自行完成机器学习模型的训练,并部署到业务中。借助AB测试能力,通过不断迭代提升,最终产生业务价值。这种方式给不懂技术的运营人员提供了操作模型、调控模型的可能,通过技术赋能,让人人都可以成为推荐算法工程师。

     

           推荐系统的人工调控图6:阿里云的交互式机器学习平台PAI  


     

    4. 结果层面的人工调控

    在推荐结果层面的调控应该是最立竿见影、最直接有效的调控方式了。常用的调控方式有基于运营需要或者特殊事件置顶部分标的物,这在前面的图3已经做过介绍。在视频行业可能还存在监管的需要,推荐系统必须具备直接下线某个节目的能力,其他行业也会由于版权的问题,需要具备下线某个或者某一组标的物的能力。

     

    这种控制的粒度不只限于某个标的物,还需要具备根据某个标签或者特征下线或者上线一批标的物的能力。比如由于侵权,平台方需要下线某个歌手所有的音乐。对标签或者特征的控制除了上下线这种比较极端的情况,还可能需要控制优先级、数量等。

     

    对结果层面的其他调控还包括对某类标的物人工定义不同的权重从而影响标的物的最终排序。这种调控常见于运营活动中,对于重点推的某个品类的标的物或者某个标的物生产方的标的物进行有针对性性的提权。

     

    除了控制权重,还可以对标的物的比例进行一定的控制,比如冷热节目的比例、标签的比例、类型的比例等。在家庭智能电视上的视频推荐场景中,如果家里有老人小孩的话,在首页的推荐就需要保证老人喜欢看的抗战类、小孩喜欢看的动画片等多个类别的节目都存在。

     

    上面提到的权重、比例等控制,一般会放到排序后的业务调控阶段(参加图1中红色方框中的业务调控模块),通过算法工程师将这些业务控制逻辑转化为规则或者策略整合到算法体系中。

     

    为了提升最终推荐结果的多样性和惊喜度,有时也需要加入一些运营人员制定的随机策略,对推荐标的物进行多维度的打散。

     

    5. 展示层面的人工调控

    推荐系统链路中最后一环是UI展示,当前端获取到推荐结果时,通过渲染引擎将推荐结果展示出来呈现给用户,用户就看到了推荐的标的物。对于视觉展示方法也是可以进行人工控制的。

     

    我们在第一节1中(见图2)提到了一种调控方式,即是配色、配图、文案等的调整。除了这些外,还可以进行的人工调控有如下几种:

    (1) 字体颜色与大小的调控;

    (2) 相互位置的调控,包括两个推荐标的物之间的距离,上下两行之间的距离;

    (3) 交互形态的调控;

    (4) 展示的海报图大小或者形状的调控;

    (5) 模块位置的调控;

    (6) 推荐标的物数量多少的调控;

    (7) 实时推荐中节目刷新的频次、一次更新的条数的控制等;

     

    这些调控都是需要后端提供一套完善的内容编排系统、需要前端提供展示调整支持的,否则是无法做到的。这些调控也是有限度的,很多都依赖于所拥有的的资源,比如只做了两种不同大小的海报图,那么只能支持这两种海报图之间的切换。

     

    下面我们拿电视猫的产品举一些例子让读者更好地理解。下面图7是电视猫的首页推荐,其中可人工调控的是左边导航栏的标题、图片等(例如,现在是疫情期间,增加了一个战疫情的tab),中间的海报图有横条的长方形还有竖直的长方形,横条的长方形是竖直长方形的两倍大小,对于某个节目是可以选择这两种UI的(只要这个视频具备这两类UI)。对于下面的兴趣推荐,兴趣推荐这四个字是可以调整的,下面兴趣推荐有多少行、选择什么样的海报图、兴趣推荐所在的位置等都是可以人工干预调整的。

     

           推荐系统的人工调控图7:电视猫首页的推荐位

     

    下面图8是电视猫电影频道的主题推荐,其中爱情和惊悚片是两个用户感兴趣的主题,属于主题个性化推荐,这里面可以人工调控的有:主题的个数(这里是2个主题)、每一个主题包含几行(这里是1行)、每一行包含多少个节目(这里是6个)、主题在上下的位置等。

     

           图8:电视猫电影频道主题推荐

     


    6. 效果层面的人工调控

    企业在产品中引入推荐系统是有目的,期望通过推荐系统更好地进行内容分发、提升用户体验、促进用户活跃、增强用户粘性、产生更多的商业价值等(对推荐系统价值感兴趣的读者可以参考《》这篇文章,里面有关于推荐系统价值的深入讨论)。这些目标在公司不同阶段有不同的重要性和优先级,有些目标之间是互相冲突的,需要进行权衡。怎么定义这些目标,在不同阶段以什么目标为重,这些都是运营人员可以控制的。特别是在运营驱动的公司中,这些指标可能就是运营团队来背的,因此一定是运营人员来决定的。

     

     

    上面我们从推荐系统业务流的角度从6个维度介绍了运营人员可以控制的部分及具体的控制策略。其实控制策略可以更广泛,在产品形态等其他方面运营人员也可以进行干预,(产品)运营人员可以确定推荐产品形态的数量,决定哪些产品形态是最重要的。

     

    调控的目的一定是优化用户体验、提升标的物曝光、点击和转化的,甚至是产生更多的商业价值。那么人工控制到底起到了作用吗?我们怎么评估人工调控的价值呢?下面我们就来探讨这个问题。



    四、怎样评估人工调控的价值


    前面提到了很多进行人工调控的方法和策略,我们期望人工调控是可以给推荐系统带来巨大价值的,在第二节也讲到了人工调控的价值,那么我们怎么来评估人工调控的价值呢?一般我们至少可以从如下4个角度来评估人工调控的价值。

     

    1. 从宏观指标上的趋势变化来看待人工调控的价值

    对于每一类产品都会有一些反应产品整体价值的较缓慢变化的宏观指标,这些指标是公司非常看重的业务指标。拿视频行业来说,日人均播放时长是一个比较重要的指标。我们可以基于过去一段时间的运营实践和数据统计分析,确定某个需要人工干预的推荐模块(或者在人工运营中整合个性化运营能力的模块,这一知识点的介绍读者可以参考《》这篇文章)的基准指标值,后续持续运营与优化,通过不断提升基准值让产品做得更好。如果在人工干预运营期间有算法迭代优化的话,这里面可能需要区分出到的是人工运营产生的价值还是算法优化的价值了,这就需要借助下面提到的AB测试。

     

    2. 通过科学的AB测试来评估人工调控的价值

    我们知道AB测试是一种科学的评估工具,广泛运用于互联网公司的产品迭代中,通过AB测试也可以很好地评估人工调控的价值。通过将用户流量分为AB两组,一组是无人工调控的,另外一组是包含人工调控的,通过一段时间的用户使用,收集用户行为数据,在关键指标(读者可以参考《》这篇文章了解所有可行的评估指标)上对比这两组指标值的差异,就可以评估出人工调控对关键指标的影响和价值。AB测试一般用于评估比较复杂的人工干预,特别是对模型层面和特征层面的干预,通过AB测试是比较好的评估方式。

     

    3. 通过用户调研来评估人工的价值

     

    4. 通过抽查来评估人工的价值

    运营人员可以对推荐依赖的数据进行控制,比如运营人员打的标签,可以通过抽查,或者交叉验证等方式来评估内容运营人员人工生成的标签数据的质量。对于其他可以直接影响推荐结果的控制(结果层面和展示层面的控制),一般是可见即所得的,因此是可以直接在UI界面上查看调整效果的,这样就可以进行人工肉眼评估了。

     


    五、人工调控面临的挑战


    人工调控是在整个推荐系统的生命周期中引入人的因素,特别是运营人员的知识和经验,让推荐系统更加灵活可控,更好地提升用户体验、获取商业价值。但推荐系统是一个复杂的系统工程,怎么引入人工调控,人工可以怎样调控都会面临着比较大的挑战,在本节我们来进行简单说明。

     

    1. 知识层面的脱节,沟通不畅

    一般运营人员更懂用户、更懂业务,而对算法方面的知识有限,而推荐算法人员熟悉算法和工程体系,但是缺乏对用户的了解和研究,离业务也比较远,业务敏感度较低。要想让推荐系统整合运营人员的经验,首先在沟通上就可能存在障碍,算法人员很难让运营人员理解调控的影响,运营人员也很难让算法人员体会到人工调控的价值。

     

    算法人员与运营人员分属于不同的团队,也可能会存在一定的利益冲突,这更加剧了沟通困难。这需要公司引入各种管理和机制层面的保障,努力让双方可以多沟通,互相学习。算法人员需要了解一些业务知识,深入了解用户,对运营的一些操作流程有所熟悉。运营人员同样需要了解一些工程和算法的基本原理。只有这样,双方才可能沟通顺畅,最终迭代出一套真正有价值的可运营的推荐系统。

     

    2. 推荐系统流程长、算法结构复杂,很难精确评估影响范围

    推荐系统本身非常复杂,包含非常多的模块,控制流程长。同时很多推荐算法,如深度学习等,本身就是一个黑盒模型,根据输入的调整与变化很难知道对结果的具体影响。这两点导致了很难知道调控影响的范围和结果,也无法做到可见即所得。很多时候需要借助多年的实践经验及AB测试等科学工具来评估运营控制的成效。

     

    3. 提供一个供运营人员方便操控的界面是一件复杂的事情

    前面一节提到运营控制涉及到推荐系统的各个模块,方方面面都可以进行人工干预,那么怎么让人工干预更好地落地就是很有挑战的事。怎么给运营人员提供一个可操作的界面是非常关键的,操作还必须要响应及时、流畅,这样可以提升运营调控的效率,他们也更能够理解怎么去进行调整,也更容易进行调整,如果能够做到可见即所得,那么就是一个比较好的操作界面了。另外,为了安全起见,运营人员的操作需要进行记录,方便对操作历史的追查,同时在操作出错时还需要能够方便地回退到操作前的状态。

     

     

    虽然本节我们讲了很多人工调控面临的困难和挑战,但是人工调控是非常有价值的, 也是不可或缺的。在当前机器是无法取代人的价值的,最好的方式是人与机器良好协作,通过协同将两者的价值最大程度的发挥出来。下面我们就来探讨人和机器有效协作的问题。



    六、人与机器的有效协作


    前面几节我们讲了人工调控的方法、价值、以及人工调控面临的困难。目前AI技术还只能在简单领域超越人类,在推荐系统领域,在很多方面(第三节的内容)还是需要人工的干预才能做得更好,人和机器只有更好地紧密配合才能产生最大的价值(参考资料2中提到抖音利用人和机器对UGC内容进行双重审核,这是人和机器协作很好的案例)。

     

    机器(推荐算法)最大的价值是可以做到全天候、无人工干预(当模型部署上线后基本不需要人工帮助了,在模型构建和训练中是需要算法工程师参与的)、自动化、近实时地为用户提供个性化的内容推荐。机器也不会受到情绪的影响,判断是完全理性客观的。同时机器可以做到很低的边际成本。这里面提到的点都是人工不具备或者做的不够好的。

     

    运营人员最大的长处在于对行业知识的深刻洞察、对趋势的判断与把握、对复杂因果关系本质的分析、对人性的洞察、对跨领域概念的连接等,人更有创造力,这些都是机器很难做到、做好的。

     

    推荐系统是一种运营的工具,最终服务的是人,最了解人类自身的还是自己。因此,在推荐系统中整合人的因素、整合人的决策策略,可以让推荐系统更加人性化,更有温度,最终让用户可以感受到更多的人文关怀,从而增强用户对推荐产品的情感联系,提升用户体验的同时,保证了高粘性。

     

    综上所述,一个好的、有温度的推荐系统,一定是人工和算法有效配合的产物,只有发挥两者的优势,互相补足,才能让推荐系统更加完美。



    总结


    本文我们对推荐系统的人工调控进行了全面的介绍。我们介绍了什么是人工调控:一切对推荐系统的人工干预都算人工调控,但本文指的调控主要是运营人员对推荐系统的干预。

     

    人工调控是非常有价值的,它的价值体现在用户体验、安全性、商业、运营需要、节省人力成本等多个维度。人工干预的形式是多种多样的,我们可以对推荐系统流程中的各个方面进行人工干预。对于人工干预,我们需要明确它的价值,也需要知道做好人工干预是一件很困难的事情。人和机器都有各自的优缺点,只有很好地结合两者的优势,才能打造出更加精准、更加人性化的推荐产品。

     

    个人认为人工智能和人类在构造上的不同(机器是物理性构造、人类是生物化学构造)决定了机器永远也无法替代人。在信息爆炸和科技快速发展的当代,那些善于利用和挖掘人与机器协同价值的公司才能在竞争中获得生存的主动权。



    参考文献

    1. [书]《快手是什么》

    2.图解抖音推荐算法

    3. [YouTube和今日头条很委屈:色情暴力的锅推荐系统该不该背]


    相关作品

    1.

    2. 

    3. 

    4. 

    5. 

    6. 

    7. 

    8. 


    以上是关于QQ音乐推荐系统的精细化调控的主要内容,如果未能解决你的问题,请参考以下文章

    推荐系统[八]算法实践总结V4:混排算法在淘宝信息流第四代混排调控框架实战,提升推荐实时性捕捉实时兴趣。

    推荐系统[六]:混排算法简介研究现状混排技术以及MDP-DOTA信息流第三代混排调控框架,高质量项目实战。

    AI 音辨世界:艺术小白的我,靠这个AI模型,速识音乐流派选择音乐 ⛵

    回顾·外卖推荐算法中有哪些机制与手段?

    ADB

    ADB