如何评估推荐系统的健康状况？

Posted 2021-03-09 oceaneyes-gzy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何评估推荐系统的健康状况？相关的知识，希望对你有一定的参考价值。

推荐系统的常见指标

推荐系统的评价指标，要从解决实际问题的角度来思考。

好的推荐系统，不仅要保证自身系统的健壮度，好要满足服务平台、用户等多方面的需求。

用户角度

更方便更快速的发现自己喜欢的产品

精准度

更多的为用户主观感受，评估的是推荐的物品是不是用户喜欢的

惊喜度

推荐的物品让用户有心情跳动的惊喜感觉，比如发现多年前的记忆、耳目一新的内容、用户听过的但是不知名字的音乐，看过片段却不知道名字的电影、知道功能却不知道名字的商品

此类推荐和用户兴趣不一定相似，但是却给用户带来意外之喜，超出用户的预期

新颖性

推荐用户没有接触过的东西，不一定是用户最喜欢的，但可以提升用户的探索欲望，从而获得更完整的用户兴趣

多样性

推荐的更多的品类，可以挖掘用户潜在的兴趣点，拓展用户的兴趣范围来提升用户的推荐体验

平台角度

平台方为用户提供物品或信息。

不同平台的获利方式不同，比如有的靠会员模式、有的通过商品、大部分则通过广告

对多数平台来说商业目标是最重要的目标之一

内容满意度

由于业务场景不同，内容满意的指标也会随之变化，主要是通过用户对产品的不同行为来衡量

资讯
- 阅读-----阅读时长----分享评论
电商
- 点击----浏览-----收藏购物车----购买-----好评----复购
短视频
- 播放----播放时长-----分享、点赞、评论-----关注 ------跟拍
音乐
- 播放-----播放时长-----分享、收藏、评论

场景转化率

转化率指标更为直观，给用推荐内容，是希望用户对推荐的内容有所行动，比如点击行为、点赞行为

pv点击率（点击量/pv）

粗略的衡量转化效果，但如果少数用户贡献大量点击时，容易覆盖该指标的真实性

uv点击率（点击量/uv）

可记录用户在一个完整周期内的点击效果，不会因用户重复浏览某个内容而受影响

曝光点击率（点击量/曝光次数）

更适合长页面、信息流等需要上拉、下拉翻页的产品，曝光次数随用户刷屏次数增加而变大，真实记录每一屏的转化效果

uv转化率（转化次数/点击量）

衡量用户转化情况，用户从一个场景转化到另一个场景去，用来评估用户的宽度

人均点击次数（点击量/点击uv数）

每个用户的点击次数，可用来评价用户的深度

推荐系统的离线评估

推荐系统自身的评估，推荐系统从接受数据到产生推荐结果，再根据推荐结果的影响重新修正自身。

推荐算法训练--（离线评价）----模型上线----（在线评价）---推荐内容---（在线评价）------行为日志收集分析--->>迭代优化推荐算法

准确度

准确度评估主要是评估推荐算法模型的好坏，为选择合适的模型提供决策支持。

数据划分为训练集、测试集；

使用训练集学习训练模型；

使用测试集来衡量误差以及评估准确度；

根据推荐系统目的不同，准确度的衡量也不同：

分类问题

比如点击、不点击；喜欢、不喜欢；

精确度precision：推荐结果有多少是用户喜欢的
召回率recall：用户喜欢的产品，有多少个是推荐系统推荐的

通常希望两个指标都越大越好，但实际需平衡两个指标都关系，所以长远F-指标来作为平衡二者关系的计算方式

评分预测

对产品惊醒评分，电影评分

均方根差RMSE
MAE 平均绝对误差

用于描述与测评分与产品真实评分的差距

排序问题

分类、评分只是把推荐产品晒出来，不包含展示顺序，而如果要把用户最可能消费的产品放在前面，则需要排序指标。

AUC，随机挑选一个正样本，一个负样本，正样本排在负样本前的概率

当算法能更好的把证样本排在前边的时候，就是一个好的算法模型
MAP，推荐列表中和用户相关的产品在推荐列表中的位置得分，越靠前分越大
MRR，按照跟用户相关的产品的排名的倒数作为精确度
NDGC，推荐列表中每一个产品评分值的累加；同时考虑每个产品位置，最后进行归一化，在同一标准上评价不同的推荐列表

覆盖率

推荐出的产品占总产品的比例

多样性

用户兴趣不是一成不变的，统一用户的兴趣会受到时间段、心情、节日等多种因素影响。推荐时要尽量推荐更多的品类。

可通过对产品聚类，在推荐列表中插入不同类别产品类提高多样性

时效性

不同产品的时效性不同，比如电商产品时效性不是很高，但新闻、资讯、短视频之类的产品，就需要很高的时效性。

针对不同的产品，甚至产品下不同的类目，设置不同的时效性，也是提高推荐质量的途径之一。

推荐系统的在线评估

在线评估分为两个阶段：用户触发推荐服务、用户产生行为

触发推荐服务

稳定性

系统稳定性对于用户体验至关重要，怎样针对不同场景持续稳定的提供推荐服务，是推荐系统的最重要的指标之一，提升推荐效果也要在保证系统稳定的前提下去进行优化

高并发

当某个时间节点大量用户访问，或用户规模急速扩大时，系统能否扛住高并发的压力，也是个很大的挑战。

了解接口的高并发能力，做好充分的压力测试

响应时间

衡量用户能否及时得到推荐反馈，response time 受多种因素影响，比如网络情况、服务器、数据库等，可通过监控请求的时长，接口监控，数据监控，做好报警措施

产生行为

用户产生行为，通过收集分析用户的行为日志进行相关指标的评价

示例：

1、推荐的曝光点击转化率

2、推荐的点击访问转化率

3、推荐的访问购买转化率

示例：

1、推荐曝光

2、点击（曝光点击转化率）

3、阅读（点击阅读转化率）

4、分享（阅读分享转化率）

AB测试

在线评估通常会结合AB测试

什么是AB测试

AB测试本质为对照实验，来源于医学的双盲测试，通过给两组病人不同的药物，来确定药物是否有效。

AB测试：将不同的算法/策略，在同一时间维度，分别在两组或者多组组成成分相同的用户群体内容进行线上测试，分析各组用户的行为指标，得到可以真正全流量上线的算法和策略

AB测试常见做法

==核心：控制变量、分流测试、规则统一==

控制变量

AB测试必须是单变量的，变量太多会产生干扰，很难找到各个变量对结果的影响程度。

分流测试

AB测试作为对照试验，自然要有试验组和对照组。通常会对用户进行分流

用户ID
设备号
浏览器cookie
约定生成的伪随机数，0，1大数定律

规则统一

在控制变量和分流测试的前提下，针对不同的流量，应制定相同的评价指标，才能得到准确的对比效果。

技术图片

以上是关于如何评估推荐系统的健康状况？的主要内容，如果未能解决你的问题，请参考以下文章

推荐系统评估：你的推荐系统足够好吗？

最全面的推荐系统评估方法介绍

推荐系统评估

深度 | 推荐系统评估

干货推荐系统评价指标，文末送书！

推荐系统召回层做离线评估的一种姿势