推荐算法之模型协同过滤（1）-关联规则

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了推荐算法之模型协同过滤（1）-关联规则相关的知识，希望对你有一定的参考价值。

参考技术A

关联规则是数据挖掘中的典型问题之一，又被称为购物篮分析，这是因为传统的关联规则案例大多发生在超市中，例如所谓的啤酒与尿布传说。事实上，“购物篮”这个词也揭示了关联规则挖掘的一个重要特点：以交易记录为研究对象，每一个购物篮（transaction）就是一条记录。关联规则希望挖掘的规则就是：哪些商品会经常在同一个购物篮中出现，其中有没有因果关系。为了描述这种“经常性”及“因果关系”，分析者定义了几个指标，基于这些指标来筛选关联规则，从而得到那些不平凡的规律。

（1）计算支持度
支持度计数：一个项集出现在几个事务当中，它的支持度计数就是几。例如Diaper, Beer出现在事务 002、003和004中，所以它的支持度计数是3
支持度：支持度计数除于总的事务数。例如上例中总的事务数为4，Diaper, Beer的支持度计数为3，所以它的支持度是3÷4=75%，说明有75%的人同时买了Diaper和Beer。

（2）计算置信度
置信度：对于规则Diaper→Beer，Diaper, Beer的支持度计数除于Diaper的支持度计数，为这个规则的置信度。例如规则Diaper→Beer的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。

一般地，关联规则被划分为动态推荐，而协同过滤则更多地被视为静态推荐。
所谓动态推荐，就是推荐的基础是且只是当前一次（最近一次）的购买或者点击。譬如用户在网站上看了一个啤酒，系统就找到与这个啤酒相关的关联规则，然后根据这个规则向用户进行推荐。而静态推荐则是在对用户进行了一定分析的基础上，建立了这个用户在一定时期内的偏好排序，然后在这段时期内持续地按照这个排序来进行推荐。由此可见，关联规则与协同过滤的策略思路是完全不同的类型。
事实上，即便在当下很多能够拿到用户ID的场景，使用动态的关联规则推荐仍然是值得考虑的一种方法（尤其是我们经常把很多推荐方法的结果综合起来做一个混合的推荐），因为这种方法的逻辑思路跟协同过滤有着本质的不同，问题似乎仅仅在于：个人的偏好到底有多稳定，推荐到底是要迎合用户的长期偏好还是用户的当下需求。

挖掘关联规则主要有Apriori算法和FP-Growth算法。后者解决了前者由于频繁的扫描数据集造成的效率低下缺点。以下按照Apriori算法来讲解。

step 1： 扫描数据集生成满足最小支持度的频繁项集。
step 2： 计算规则的置信度，返回满足最小置信度的规则。

如下所示，当用户购买1商品时推荐2、3商品

协同过滤

参考技术A

协同过滤（Collaborative Filtering，CF）——经典/老牌
只用户行为数据得到。对于个用户，个物品，则有共现矩阵 :
对于有正负反馈的情况，如“赞”是1和“踩”是-1，无操作是0：

对于只有显示反馈，如点击是1，无操作是0：

算法步骤：
1）得到共现矩阵；
2）计算 任意两行 用户相似度，得到用户相似度矩阵；
3）针对某个用户选出与其最相似的个用户，是超参数；——召回阶段
4）基于这个用户，计算对每个物品的得分；
5）按照用户的物品得分进行排序，过滤已推荐的物品，推荐剩下得分最高的个。——排序阶段

第2步中，怎么计算用户相似度？——使用共现矩阵的行
以余弦相似度为标准，计算和之间的相似度：

第4步中，怎么每个用户对每个物品的得分？
假如和用户最相似的2个为和 :

对物品的评分为1，用户对物品的评分也为1，那么用户对的评分为：

也就是说：利用用户相似度对用户评分进行加权平均：

其中，为用户和用户之间的相似度，为用户和物品之间的相似度。

UserCF的缺点
1、现实中用户数远远大于物品数，所以维护用户相似度矩阵代价很大；
2、共现矩阵是很稀疏的，那么计算计算用户相似度的准确度很低。

算法步骤：
1）得到共现矩阵；
2）计算 任意两列 物品相似度，得到物品相似度矩阵；
3）对于有正负反馈的，获得用户正反馈的物品；
4）找出用户正反馈的物品最相似的个物品，组成相似物品集合；——召回阶段
5）利用相似度分值对相似物品集合进行排序，生产推荐列表。——排序阶段
最简单情况下一个物品（用户未接触的）只出现在另一个物品（用户已反馈的）的最相似集合中，那么每个用户对每个物品的得分就是相似度。如果一个物品和多个物品最相似怎么办？
如用户正反馈的是和，对于物品其最相似的是，相似度为0.7，对于物品其最相似的也是，相似度为0.6，那么相似度为：

也就是说：如果一个物品出现在多个物品的个最相似的物品集合中，那么该物品的相似度为多个相似度乘以对应评分的累加。

其中，是物品p与物品h的相似度，是用户u对物品p的评分。

第2步中，怎么计算物品相似度？——使用共现矩阵的列
以余弦相似度为标准，计算和之间的相似度：

余弦相似度
皮尔逊相关系数
基于皮尔逊相关系数的改进

UserCF适用于用户兴趣比较分散变换较快的场景，如新闻推荐。
IteamCF适用于用户情趣不叫稳定的场景，如电商推荐。

优点：直观，可解释性强。
缺点：

以上是关于推荐算法之模型协同过滤（1）-关联规则的主要内容，如果未能解决你的问题，请参考以下文章

小谈基于协同过滤的产品推荐算法

大数据挖掘小谈基于协同过滤的产品推荐算法

spark基于用户的协同过滤算法与坑点，提交job

用关联算法做协同过滤:

2前奏之基于用户的协同过滤算法：UserCF

推荐系统的常用算法----算法岗面试题