搜索系统11：协同过滤的数据源和遗留问题

Posted 2020-10-10 北漂程序员

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了搜索系统11：协同过滤的数据源和遗留问题相关的知识，希望对你有一定的参考价值。

前一文中已经对推荐算法做了个简单的介绍，最常用的就是协同过滤，可分为基于用户的或者基于作品的。我以mahout对这两个算法进行了测试，发现只用这两个算法来完成推荐的工作，还远远不够。这两算法有以下问题待解决:

1.数据源的广度和精度。

算法需要大量的user_id,product_id,like_num(偏好度)这样的数据，而我们的实际系统并没有这样的数据，实际数据需要转化为这样的数据格式才能使用该算法。这就需要我们回答：我们用哪些实际数据来做转化？这就是数据源的广度。实际的数据如何转为like_num，这就是数据的精度问题。

2.推荐算法只能给一部分用户计算出推荐数据。

我的测试数据用户总数有8万多，而实际计算出的推荐数据的用户总数仅为6千多，也就是说只有8%的用户有推荐数据，92%的没有。

3.如何给那剩下92%的用户推荐？

这92%的用户是有实际操作记录的，那还是要计算这些数据关系，进而推荐。只是我们用不了上面的算法，要么自己写一个，要么改mahout协同过滤算法的实现！

4.如何给新用户（没有操作记录）做推荐？

这个可以做个兜底的数据，就是平台认识最好的。

整理一下思路:

技术分享

聚类算法有欧氏距离等，这个也可不用mahout来做，自己写就行。主要问题是单机太慢了。《mahout in action》在第7章开始讲聚类算法，不过hello world就用上了hadoop。要玩这个看来就得先把这个hello world运行起来，不玩hadoop不行了。

对于92%的未推荐用户还有一个解决办法，就是用浏览实时推荐。前面之所以没有把浏览记录做为mahout的数据来源，原因有两个。

1.浏览记录一般就是最近的有效，用户不会关心一个月或一年前看过的商品，他可能早忘了。
2.浏览数据特别太，会干扰推荐算法，并且让计算速度变慢。

所以把浏览记录做为实时推荐是一个很好的办法，但只有浏览记录是无法完成推荐的。用户看了A产品，必须在事前建立好A与B、E、F产品的关系，才能推荐出B、E、F产品来。

以上是关于搜索系统11：协同过滤的数据源和遗留问题的主要内容，如果未能解决你的问题，请参考以下文章