协同过滤算法

Posted 2020-11-29 ppzhang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了协同过滤算法相关的知识，希望对你有一定的参考价值。

流程

首先，找到User1 喜欢的商品；

找出与User1具有相同的商品兴趣爱好的人群；

找出该人群喜欢的其他商品；

将这些商品推送给User1。

例子

两名用户都在某电商网站购买了A、B两种产品。当他们产生购买这个动作的时候，两名用户之间的相似度便被计算了出来。其中一名用户除了购买了产品A和B，还购买了C产品，此时推荐系统会根据两名用户之间的相似度会为另一名用户推荐项目C。

技术图片

难点1：如何获取兴趣相似的用户

思路：通过购买过相同商品为介质，关联用户的关系

难点2：计算相似度

欧氏距离计算（计算两个点之间的直线距离）

技术图片

import math
# 计算两点之间的距离
def eucliDist(A,B):
    return math.sqrt(sum([(a - b)**2 for (a,b) in zip(A,B)]))
X = [1,2,3,4]
Y = [0,1,2,3]
print(eucliDist(X,Y))

根据用户的购买/收藏关系推荐商品

data = {
    "1":{"诺基亚":4.8,‘iphone‘:5.0,"联想":0.1},
    "2":{"诺基亚":3.0,"vivo":5.0,"htc":0.2},
    "3":{"锤子":0.1,"魅族":0.3,"一加":5.0}
}

#| x | = √(x[1]2 + x[2]2 + … + x[n]2)


from math import *

#pow返回 xy（x的y次方） 的值
#sqrt返回数字x的平方根

#计算用户之间的相似度
def Euclid(user1,user2):
    #根据key获取value
    user1_data = data[user1]
    user2_data = data[user2]
    distance = 0


    for key in user1_data.keys():
        if key in user2_data.keys():
            distance += pow(float(user1_data[key]) - float(user2_data[key]),2)


    #变成小数便于比较，值越小相似度越高
    return 1/(1+sqrt(distance))


print(Euclid("1","2"))

#构建最相似的用户top_people
def top_user(user):
    res = []
    for uid in data.keys():
        if not uid == user:
            simliar = Euclid(user,uid)
            res.append((uid,simliar))

    res.sort(key=lambda val:val[1])

    return res

print(top_user(‘1‘))

#构建推荐商品
def recommend(user):
    top_people = top_user(user)[0][0]

    #获取当前相似度最高的用户的商品列表
    items = data[top_people]

    recommed_list = []


    for item in items.keys():
        #当这个商品不存在于目标用户的商品列表中，添加到推荐列表中
        if item not  in data[user].keys():
            recommed_list.append((item,items[item]))

    #根据推荐列表里的打分请款从小到大排序，然后反转
    recommed_list.sort(key=lambda val:val[1],reverse=True)

    #取出top10推荐
    return recommed_list[:10]

print(recommend("1"))

View Code

以上是关于协同过滤算法的主要内容，如果未能解决你的问题，请参考以下文章

推荐算法的基于协同过滤的推荐

spark协同过滤算法-附scala代码

推荐算法之模型协同过滤（1）-关联规则

协同过滤算法

推荐算法：

发展背景：

推荐算法分类：

协同过滤推荐：

推荐系统的目的：

流程

例子

难点1：如何获取兴趣相似的用户

难点2：计算相似度