文本挖掘：找出兴趣相投的用户并作产品推荐

Posted 2021-04-16 21CTO

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘：找出兴趣相投的用户并作产品推荐相关的知识，希望对你有一定的参考价值。

21CTO导读：

Python在机器学习，推荐算法，数据抓取，大数据分析等领域，提供了很多不错的扩展模块。本文就为大家抛砖引玉，提供一个用户对电影兴趣的推荐算法，欢迎讨论。

目录：

过程：
    用爬虫抓取豆瓣电影用户信息
    用多重分类法，定义电影评价等级
    计算自己与用户的皮尔逊相关度
    以人为主体分析相似度：找出志同道合的人，可以发现潜在喜欢的商品
    以商品为主体分析相似度：找出相似的商品，可以发现潜在的客户（如亚马逊的‘买了商品A的用户还买了商品B’)

电影评价多重分类：

很差
较差
还行
推荐
力荐

代码：

计算皮尔逊相关系数，找出兴趣相投的用户：(插入自己的数据)

from math import sqrt
#计算皮尔逊相关度(1为完全正相关，-1为完成负相关)
def sim_pearson(prefs, p1, p2):
# Get the list of mutually rated items
si = {}
for item in prefs[p1]:
if item in prefs[p2]:
si[item] = 1
# if they are no ratings in common, return 0
if len(si) == 0:
return 0
# Sum calculations
n = len(si)
# Sums of all the preferences
sum1 = sum([prefs[p1][it] for it in si])
sum2 = sum([prefs[p2][it] for it in si])
# Sums of the squares
sum1Sq = sum([pow(prefs[p1][it], 2) for it in si])
sum2Sq = sum([pow(prefs[p2][it], 2) for it in si])
# Sum of the products
pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])
# Calculate r (Pearson score)
num = pSum - (sum1 * sum2 / n)
den = sqrt((sum1Sq - pow(sum1, 2) / n) * (sum2Sq - pow(sum2, 2) / n))
if den == 0:
return 0
r = num / den
return r
#插入自己的数据
user_info['me'] = {u'消失的爱人' : 5,
u'神去村' : 3,
u'炸裂鼓手' : 5}
#找出皮尔逊相关系数>0的用户，说明该用户与自己的电影品味比较相近
for user in user_info:
res = sim_pearson(user_info, 'me', user)
if res > 0:
print('the user like %s is : %s' % ('me', user))
print('result :%f\n' % res)

向某用户推荐电影（加权平均所有人的评价）

#向某个用户推荐电影(加权平均所有人的评价值)
def getRecommendations(prefs,person,similarity=sim_pearson):
totals={}
simSums={}
for other in prefs:
# don't compare me to myself
if other==person: continue
sim=similarity(prefs,person,other)
# ignore scores of zero or lower
if sim<=0: continue
for item in prefs[other]:
# only score movies I haven't seen yet
if item not in prefs[person] or prefs[person][item]==0:
# Similarity * Score
totals.setdefault(item,0)
totals[item]+=prefs[other][item]*sim
# Sum of similarities
simSums.setdefault(item,0)
simSums[item]+=sim
# Create the normalized list
rankings=[(total/simSums[item],item) for item,total in totals.items()]
# Return the sorted list
rankings.sort()
rankings.reverse()
return rankings
#向我推荐电影
res = getRecommendations(user_info, "me")
print('Recommand watching the movie:')
print json.dumps(res, encoding='UTF-8', ensure_ascii=False)

结果与分析：

与我电影口味相近的用户有：doreen, fabrice
推荐我看的电影有：泰坦尼克号，这个杀手不太冷
以人为主体分析，找出有相似爱好的人，并向这些人推荐商品，可以发现潜在喜欢的商品
而若以商品为主体分析，找出相似的商品，找出喜欢这个产品的人，可以发现商品潜在的客户

来源：数据挖掘入门与实战

以上是关于文本挖掘：找出兴趣相投的用户并作产品推荐的主要内容，如果未能解决你的问题，请参考以下文章

使用文本挖掘实现站点个性化推荐

使用文本挖掘实现站点个性化推荐

python数据分析与挖掘学习笔记_小说文本数据挖掘part1

使用文本挖掘实现站点个性化推荐

使用文本挖掘实现站点个性化推荐

推荐：网络爬虫与文本挖掘核心技术案例实战高级研修班