基于物品的协同过滤
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于物品的协同过滤相关的知识,希望对你有一定的参考价值。
参考技术A 参考书本: 项亮, 推荐系统实践. 2012
本文系阅读笔记
1.网站用户基数增多,矩阵难以构造,时空复杂度增加。
2.难以对推荐结果做出解释。
该算法会因为你购买过《数据挖掘导论》而给你推荐《机器学习》。不过, ItemCF 算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。 该算法认为,物品 A 和物品 B 具有很大的相似度是因为喜欢物品 A 的用户大都也喜欢物品B 。
基于物品的协同过滤算法可以利用用户的历史行为给推荐结果提供推荐解释,比如给用户推荐《天龙八部》的解释可以是因为用户之前喜欢《射雕英雄传》。
基于物品的协同过滤算法主要分为两步。
(1) 计算物品之间的相似度。
(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。
具体公式(ij直接的相似度):
N(i)表示喜欢物品i的用户数。
但是如果物品j很热门,几乎每个人都喜欢,则关系度会接近于1。(如可能很多人都会买《新华字典》或《哈利波特》)
为了避免推荐热门物品,则有公式:
这个公式惩罚了物品j的权重,减轻了热门物品会和很多物品相似的可能性。
尽管上面的公式分母已经考虑到了 j 的流行度,但在实际应用中,热门的 j 仍然会获得比较大的相似度。因此可在分母上进行惩罚。
但不能完全解决,两个不同领域的最热门物品之间往往具有比较高的相似度。这个时候,仅仅靠用户行为数据是不能解决这个问题的,因为用户的行为表示这种物品之间应该相似度很高。此时,我们只能依靠引入物品的内容数据解决这个问题,比如对不同领域的物品降低权重等。这些就不是协同过滤讨论的范畴了。
可以首先建立用户-物品倒排表,即每一个用户建立一个包含他喜欢的物品的列表。
比如电影,一般来说,同系列的电影、同主角的电影、同风格的电影、同国家和地区的电影会有比较大的相似度。
在得到物品之间相似度后,itemCF运用以下公式计算用户u对一个物品j的兴趣:
S(j,K) 与物品j最相似的K个物品的集合
为物品相似度。 即用户u对物品i的兴趣程度,这里可看做有过行为为1。
对既属于用户喜欢的物品,又在与j物品相似的物品集合内的每一个物品,得到权重相加和(即相似度乘感兴趣程度)。
精度(准确率和召回率) 可以看到 ItemCF 推荐结果的精度也是不和 K 成正相关或者负相关的,因此选择合适的 K 对获得最高精度是非常重要的。
流行度 和 UserCF 不同,参数 K 对 ItemCF 推荐结果流行度的影响也不是完全正相关的。
随着 K 的增加(流行物品相对增多),结果流行度会逐渐提高,但当 K 增加到一定程度,流行度就不会再有明显变化。
覆盖率 K 增加会降低系统的覆盖率(流行率增加)。
A.
假设有这么一个用户,他是开书店的,并且买了当当网上 80% 的书准备用来自己卖。那么,他的购物车里包含当当网 80% 的书。假设当当网有 100 万本书,也就是说他买了 80 万本。从前面对 ItemCF 的讨论可以看到,这意味着因为存在这么一个用户,有 80 万本书两两之间就产生了相似度,也就是说,内存里即将诞生一个 80 万乘 80 万的稠密矩阵。
John S. Breese 在论文中提出了一个称为 IUF ( Inverse User Frequence ),即用户活跃度对数的倒数的参数,他也认为活跃用户对物品相似度的贡献应该小于不活跃的用户,他提出应该增加 IUF参数来修正物品相似度的计算公式:ItemCF-IUF算法
同ItemCF相比,降低了流行度,提高了推荐结果的覆盖率。
B.
物品相似度归一化。
Karypis 在研究中发现如果将 ItemCF 的相似度矩阵按最大值归一化,可以提高推荐的准确率。
其研究表明,如果已经得到了物品相似度矩阵 w ,那么可以用如下公式得到归一化之后的相似度矩阵 w\' :
相似度的归一化可以提高推荐的多样性。[解释看原书]
推荐算法之基于物品的协同过滤
基于物品的协同过滤( item-based collaborative filtering )算法是此前业界应用较多的算法。无论是亚马逊网,还是Netflix 、Hulu 、 YouTube ,其推荐算法的基础都是该算法。为行文方便,下文以英文简称ItemCF表示。本文将从其基础算法讲起,一步步进行改进并基于MovieLens 数据集给出代码实现,带你领略这一经典算法的美。
1.基本原理
前面我们简单讲解了一下基于用户的协同过滤推荐(UserCF),并且给出了实现代码。还不了解的朋友可以转到链接----推荐算法之基于用户的协同过滤。但是我们也讲到该算法存在一些缺点,首先,随着网站的用户数目越来越大,计算用户兴趣相似度矩阵将越来越困难,其运算时间复杂度和空间复杂度的增长和用户数的增长近似于平方关系。其次,基于用户的协同过滤很难对推荐结果作出解释。因此,著名的电子商务公司亚马逊提出了另一个算法——ItemCF 。
ItemCF 给用户推荐那些和他们之前喜欢的物品相似的物品。比如,该算法会因为你购买过《统计学习方法》而给你推荐《机器学习》。不过,ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。该算法认为,物品 A 和物品 B 具有很大的相似度是因为喜欢物品 A 的用户大都也喜欢物品B 。
基于物品的协同过滤算法可以利用用户的历史行为给推荐结果提供推荐解释,比如给用户推荐《迷迭香》的解释可以是因为用户之前喜欢《她的睫毛》。
基于物品的协同过滤算法主要分为两步:
- 计算物品之间的相似度
- 根据物品的相似度和用户的历史行为给用户生成推荐列表
从购买了该商品的用户也经常购买的其他商品这句话的定义出发,我们可以用下面的公式定义物品的相似度:
[
w_{ij}=frac{|N(i) igcap N(j)|}{|N(i)|}
]
这里,分母(|N(i)|)是喜欢物品i的用户数,而分子(N(i) igcap N(j))是同时喜欢物品i和物品j的用户数。因此,上述公式也可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j。
上述公式虽然看起来很有道理,但是却存在一个问题。如果物品 j 很热门,很多人都喜欢,那么 (w_{ij})就会很大,接近 1 。因此,该公式会造成任何物品都会和热门的物品有很大的相似度,这对于致力于挖掘长尾信息的推荐系统来说显然不是一个好的特性。为了避免推荐出热门的物品,可以用下面的公式:
[
w_{ij}=frac{|N(i) igcap N(j)|}{sqrt{|N(i)||N(j)|}}
]
这个公式惩罚了物品 j 的权重,因此减轻了热门物品会和很多物品相似的可能性。
从上面的定义可以看到,在协同过滤中两个物品产生相似度是因为它们共同被很多用户喜欢,也就是说每个用户都可以通过他们的历史兴趣列表给物品贡献相似度。这里面蕴涵着一个假设,就是每个用户的兴趣都局限在某几个方面,因此如果两个物品属于一个用户的兴趣列表,那么这两个物品可能就属于有限的几个领域,而如果两个物品属于很多用户的兴趣列表,那么它们就可能属于同一个领域,因而有很大的相似度。
和UserCF算法类似,不过这里是建立用户-物品倒排表,然后计算物品的相似度。ItemCF通过如下公式计算用户u
对一个物品j
的兴趣:
[
p_{uj}=sum_{i in N(u) igcap S(j,K)}{W_{ji}r_{ui}}
]
本文基于MovieLens数据集(显性反馈数据集)实现了该算法,地址详见:ItemCF算法实现
2.算法改进
2.1 引入IUF参数软性惩罚活跃用户
在前面的篇幅中可以看到,在ItemCF中两个物品产生相似度是因为它们共同出现在很多用户的兴趣列表中。换句话说,每个用户的兴趣列表都对物品的相似度产生贡献。但是,在现实生活中并不是每个用户的贡献都相同。
于是John S. Breese在论文中提出了一个称为 (IUF)(Inverse User Frequence ),即用户活跃度对数的
倒数的参数,他也认为活跃用户对物品相似度的贡献应该小于不活跃的用户,他提出应该增加 IUF
参数来修正物品相似度的计算公式:
[
w_{ij}=frac{sum_{u in N(i) igcap N(j)}{frac{1}{log1 + |N(u)|}}}{sqrt{|N(i)||N(j)|}}
]
当然,上面的公式只是对活跃用户做了一种软性的惩罚,但对于很多过于活跃的用户,比如上面那位买了当当网 80% 图书的用户,为了避免相似度矩阵过于稠密,我们在实际计算中一般直接忽略他的兴趣列表,而不将其纳入到相似度计算的数据集中。
2.2 归一化相似矩阵
Karypis在研究中发现如果将 ItemCF 的相似度矩阵按最大值归一化,可以提高推荐的准确率。其研究表明,如果已经得到了物品相似度矩阵 w ,那么可以用如下公式得到归一化之后的相似度矩阵 ‘w‘ :
[
w'_{ij} = frac{w_{ij}}{max_{j}w_{ij}}
]
归一化的好处不仅仅在于增加推荐的准确度,它还可以提高推荐的覆盖率和多样性。一般来说,物品总是属于很多不同的类,每一类中的物品联系比较紧密。
举一个例子,假设在一站中,有两种电影——纪录片和动画片。那么, ItemCF
算出来的相似度一般是纪录片和纪录片的相似度或者动画片和动画片的相似度大于纪录片和动画片的相似度。但是纪录片之间的相似度和动画片之间的相似度却不一定相同。假设物品分为两类—— A 和 B , A 类物品之间的相似度为 0.5 , B 类物品之间的相似度为 0.6 ,而 A 类物品和 B 类物品之间的相似度是 0.2 。在这种情况下,如果一个用户喜欢了 5 个 A 类物品和 5 个 B 类物品,用 ItemCF
给他进行推荐,推荐的就都是 B 类物品,
因为 B 类物品之间的相似度大。但如果归一化之后, A 类物品之间的相似度变成了 1 , B 类物品之间的相似度也是 1 ,那么这种情况下,用户如果喜欢 5 个 A 类物品和 5 个 B 类物品,那么他的推荐列表中 A 类物品和 B 类物品的数目也应该是大致相等的。从这个例子可以看出,相似度的归一化可以提高推荐的多样性。
那么,对于两个不同的类,什么样的类其类内物品之间的相似度高,什么样的类其类内物品相似度低呢?一般来说,热门的类其类内物品相似度一般比较大。如果不进行归一化,就会推荐比较热门的类里面的物品,而这些物品也是比较热门的。因此,推荐的覆盖率就比较低。相反,如果进行相似度的归一化,则可以提高推荐系统的覆盖率。
3.小结
ItemCF的推荐结果着重于维系用户的历史兴趣,即推荐更加个性化,反映了用户自己的兴趣传承。在图书、电子商务和电影网站,比如亚马逊、豆瓣、Netflix 中, ItemCF 则能极大地发挥优势。首先,在这些网站中,用户的兴趣是比较固定和持久的。这些网站中个性化推荐的任务是帮助用户发现和他研究领域相关的物品。
Item算法适用于物品数明显小于用户数的场合,长尾物品丰富,用户个性化需求强烈的领域。该算法可实时性强,用户有新行为,一定会导致推荐结果的实时变化。并且可以给出良好的推荐解释。冷启动方面,新用户只要对一个物品产生行为,就可以给他推荐和该物品相关的其他物品。但没有办法在不离线更新物品相似度表的情况下将新物品推荐给用户。
PS:(???)觉得作者文章还不错的话,请点一下推荐哦!万分感谢!)
以上是关于基于物品的协同过滤的主要内容,如果未能解决你的问题,请参考以下文章