推荐系统之标签修正
Posted AINLP
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐系统之标签修正相关的知识,希望对你有一定的参考价值。
You don't care what other people think. It's brave being how you are.
你不在意别人怎么看你,这很勇敢。
念青东错仁克
在推荐系统中,标签修正表示对样本标签进行微调,使标签能更好的反应用户的偏好。以资讯类信息流产品为例,Item形式有图文、视频,图集等多种形式,图文有对文章总行数即阅读行数进行打点,视频包括长视频和短视频,会对视频总时长及阅读时长进行打点,图集则对图片总数及阅读图片数进行打点。标签修正主要就围绕上述打点数据来对相应标签进行处理。
标签修正的动机
用户误点是很正常的,点击了但是很快就退出了,这样的点击样本肯定不能当中真正例来学习,恰恰相反,这些其实是很强的负反馈信号,特别是阅读时长很短的,完成率很低的。还有一些视频是自动播放的,但是用户很快就刷过去的,说明用户不感兴趣。还有的用户点开了一个长视频中途离开忘记退出的,这样的长视频需要做截断处理。还有视频天然比图文类的阅读时长长,怎么做到视频图文一起学习但是又有可比性?有的图文视频很长,而还有的很短,怎么能够做到长短不同的Item更加平滑可比,让模型学习更加平稳?这些就是做标签修正的动机。
标签修正举例
针对点击模型, 图文总行数低于N行,阅读行数低于M行,视频总时长低于P秒,播放时长低于T秒,图集总数低于Q张,阅读总数低于H张,或者总的完播率低于J%,这样的点击样本可以把它反转为负例。这里的量化指标请结合自身业务设定。
针对时长模型,一般会做归一化处理,以 阅读时长/总时长 作为时长标签。但是这里需要对总时长及阅读时长进行截断,对图文、视频及图集的实际阅读时长分布进行分析,分别对不同类型样本选择合适的截断阈值。然后对时长进行Log转换等平滑处理,使得长短时长学习的时候loss差距不至于差别过大。
针对完播率模型,和点击模型的处理差不多,太短的完成率太低的都置为0,同时对于最大值也做了截断处理,和时长模型的截断处理类似。
在我们的业务中,上述处理线上会有明显收益,修正的处理细节对线上各个业务指标的影响可以明细看出来。比如针对点击模型短文本及完成率低文本的反转处理,线上有效阅读率提升了3%,而无效阅读率下降了7%,这个有效阅读和无效阅读指标是我们根据一定的标志制定的,基本能够描述用户的阅读体验。针对时长的处理,视频的阅读PV和时长都提上来了,总体PV时长正向。针对完播率的处理,PV时长都上升明显,有效阅读比有效提升。
标签修正和重排多目标调权的关系
上面的这些处理,即标签修正后再训练模型,然后通过模型预估分来对影响线上效果,基本都能够放到重排阶段的多目标调权当中去做,并不需要在模型这边进行处理。比如针对时长的截断,可以通过对预估分截断达到同样的目的。对于超长时长及超短时长的打压,也基本能够达到对时长做平滑处理的目的。对于点击率模型的处理,可以对低完播率进行打压,达到对低完播率样本反转同样的效果,短时长但高完播率的样本可以通过时长模型来进行调控。同时需要指出的问题是,做标签修正可以会影响部分监控指标,比如对点击标签修正就会使得模型学习的正负样本分布与实际样本分布有一定的偏差,导致监控中bias偏大。对于监控指标的纯洁性有严格追求,可能就不适合做标签修正这样的操作了,毕竟有些指标的准确性确实对指导模型训练很重要。
其它样本清洗工作
假设推荐系统一刷推N篇文章,但是用户在App上实际只看到M(M<N)篇,其余的可能被广告挤掉了或者其它原因没有正常的显示出来,需要用户操作才能完全展现,只要那多出来的N-M篇文章没有正常展现,对于这部分样本一般也不会参与模型训练,这应该是业界通用做法,即使用有效曝光样本做训练。还有些用户推什么点什么,PV时长都异常的高,有可能是爬虫或者作弊用户,对这类样本也需要进行过滤。
其它样本层面优化工作
1) 对误差较大样本进行采样重训
2) 对重点样本比如高完播率高时长样本进行加权
3) 在当前样本集里面加入待预测时间区间历史相同时间区间的采样样本
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
推荐阅读
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧 以上是关于推荐系统之标签修正的主要内容,如果未能解决你的问题,请参考以下文章