用户行为数据

用户显性反馈数据：显性反馈行为包括用户明确表示对物品喜好的行为。主要方式就是评分和喜欢/不喜欢。
用户隐性反馈数据：隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。

用户活跃度和物品流行度：长尾分布

一般来说，不活跃的用户要么是新用户，要么是只来过网站一两次的老用户。那么，不同活跃度的用户喜欢的物品的流行度是否有差别？一般认为，新用户倾向于浏览热门的物品，因为他们对网站还不熟悉，只能点击首页的热门物品，而老用户会逐渐开始浏览冷门的物品。

用户行为数据设计的推荐算法

基于邻域的方法（neighborhood-based）
隐语义模型（latent factor model）
基于图的随机游走算法（random walk on graph）

其中最主要的方法为基于邻域的算法：

基于用户的协同过滤算法这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法这种算法给用户推荐和他之前喜欢的物品相似的物品。

基于用户的协同过滤算法：

(1) 找到和目标用户兴趣相似的用户集合。（相似性计算，基于距离）
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户

改进 1：

如果对用户两两计算相似度，复杂度过高O(n*n) ，因此可以首先计算item-user的倒排表，然后计算用户相似度，这样可以过滤掉共同物品为0的用户

改进 2：

考虑物品本身的流行度，

基于物品的协同过滤算法

(1) 计算物品之间的相似度。
(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。
共现的概率

改进 1 ：user-item倒排表

改进 2 用户活跃度的影响

隐语义模型

隐语义模型是最近几年推荐系统领域最为热门的研究话题，它的核心思想是通过隐含特征(latent factor)联系用户兴趣和物品。

隐含语义分析技术从诞生到今天产生了很多著名的模型和方法，其中和该技术相关且耳熟能详的名词有pLSA、LDA、隐含类别模型（latent class model）、隐含主题模型（latent topic model）、矩阵分解（matrix factorization）。这些技术和方法在本质上是相通的，其中很多方法都可以用于个性化推荐系统。

隐性反馈数据中，没有负样本只有正样本；在隐性反馈数据集上应用LFM解决TopN推荐的第一个关键问题就是如何给每个用户生成负样本。

对于一个用户，用他所有没有过行为的物品作为负样本。
对于一个用户，从他没有过行为的物品中均匀采样出一些物品作为负样本。
对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，保证每个用户的正负样本数目相当。
对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，偏重采样不热门的物品。

对于第一种方法，它的明显缺点是负样本太多，正负样本数目相差悬殊，因而计算复杂度很高，最终结果的精度也很差。对于另外3种方法，Rong Pan在文章中表示第三种好于第二种，而第二种好于第四种。

对每个用户，要保证正负样本的平衡（数目相似）。
对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

LFM和基于邻域的方法的比较

理论基础 LFM具有比较好的理论基础，它是一种学习方法，通过优化一个设定的指标建立最优的模型。基于邻域的方法更多的是一种基于统计的方法，并没有学习过程。
离线计算的空间复杂度：LFM大量节省了训练过程中的内存
离线计算的时间复杂度：在一般情况下，LFM的时间复杂度要稍微高于UserCF和ItemCF，这主要是因为该算法需要多次迭代。但总体上，这两种算法在时间复杂度上没有质的差别。
在线实时推荐： UserCF和ItemCF在线服务算法需要将相关表缓存在内存中，然后可以在线进行实时的预测。
推荐解释： ItemCF算法支持很好的推荐解释，它可以利用用户的历史行为解释推荐结果。但LFM无法提供这样的解释，它计算出的隐类虽然在语义上确实代表了一类兴趣和物品，却很难用自然语言描述并生成解释展现给用户。