推荐系统基础-纪要

Posted 2021-12-06 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了推荐系统基础-纪要相关的知识，希望对你有一定的参考价值。

Lambda 架构介绍

离线计算和实时计算共同提供服务的问题
离线计算优缺点
- 优点能够处理的数据量可以很大比如pb级别
- 缺点速度比较慢分钟级别的延迟
实时计算
- 优点响应快来一条数据处理一条 ms级别响应
- 缺点处理的数据量小一些
离线计算的框架
- hadoop hdfs mapreduce
- spark core , spark sql
- hive
实时计算框架
- spark streaming
- storm
- flink
消息中间件
- flume 日志采集系统
- kafka 消息队列
存储相关
- hbase nosql数据库
- hive sql操作hdfs数据

协同过滤思路介绍

CF 物以类聚人以群分
做协同过滤的话首先特征工程把用户-物品的评分矩阵创建出来
基于用户的协同过滤
- 给用户A 找到最相似的N个用户
- N个用户消费过哪些物品
- N个用户消费过的物品中-A用户消费过的就是推荐结果
基于物品的协同过滤
- 给物品A 找到最相似的N个物品
- A用户消费记录找到这些物品的相似物品
- 从这些相似物品先去重-A用户消费过的就是推荐结果

相似度计算

余弦相似度、皮尔逊相关系数
- 向量的夹角余弦值
- 皮尔逊会对向量的每一个分量做中心化
- 余弦只考虑方向不考虑向量长度
- 如果评分数据是连续的数值比较适合中余弦、皮尔逊计算相似度
杰卡德相似度
- 交集/并集
- 计算评分是0 1 布尔值的相似度

使用不同相似度计算方式实现协同过滤

如果买/没买点/没点数据 0/1 适合使用杰卡德相似度
- from sklearn.metrics import jaccard_similarity_score
- jaccard_similarity_score(df[‘Item A’],df[‘Item B’])
- from sklearn.metrics.pairwise import pairwise_distances
- user_similar = 1-pairwise_distances(df,metric=‘jaccard’)
一般用评分去做协同过滤推荐使用皮尔逊相关系数
- 评分预测
- $pred(u,i)=\\hat{r}_{ui}=\\cfrac{\\sum_{v\\in U}sim(u,v)*r_{vi}}{\\sum_{v\\in U}|sim(u,v)|}$
基于用户和基于物品的协同过滤严格上说，属于两种算法，实践中可以都做出来，对比效果，选择最靠谱的

协同过滤基于模型的算法

用户-物品矩阵比较稀疏的时候直接去取物品向量用户向量计算相似度不太适合
基于模型的方法可以解决用户-物品矩阵比较稀疏的问题
矩阵分解
- 把大的矩阵拆成两个小的用户矩阵物品矩阵 MXN 大矩阵 M X K K X N K<<M k<<N
- 大矩阵约等于用户矩阵乘物品矩阵
- 使用als 交替最小二乘法来优化损失 spark ML recommandation 包封装了als
- 优化之后的用户矩阵取出用户向量
- 优化之后的物品矩阵取出物品向量
- 用户向量点乘物品向量得到最终评分的预测

基于内容的推荐

给物品打标签
- 系统自己提取从业务数据库中提取
- 用户填写
- 中文分词利用算法计算词的权重
  - tf-idf tf term frequency 词频 5/100 *2
    - idf 逆文档频率 log 10 文本库篇数/出现关键词的文章篇数
    - 1000 10python 1000/10 100 2
    - 1000/1000 log(1) = 0
  - textrank
利用标签的文字转换成词向量
- word2Vec 词->向量
- 用向量来表示语义
- 如果两个词的词向量相似度比较高认为这两个词的语义相近
利用词向量构建物品的向量
- 一个物品有N个关键词每一个关键词对应一个词向量
- 求和（权重*词向量）/N
- 利用N个关键词的词向量获取物品向量
通过物品向量计算相似度
- 皮尔逊相关系数计算物品向量的相似度

基于内容的推荐基于物品的协同过滤区别

content_base ：词向量->物品向量->计算相似度
item_based cf :user-item matrix->物品向量->相似度
content_base item_based cf 不一样
- 物品向量构建过程有区别
- 基于内容的推荐
  - 物品向量文本（物品描述信息，系统填标签，用户填标签）
- 基于物品的协同过滤
  - 用户对物品的评分矩阵用户的行为数据中来
baseline思想来解决协同过滤的问题
- 计算出所有用户对所有物品评分的平均值
- 预测的评分= 在平均值的基础上 + 用户评分偏置 +物品的评分偏置
- 求解所有用户的评分偏置和所有物品的得分偏置
- 这个问题可以转换成损失优化的过程
梯度下降
交替最小二乘法

矩阵分解

SVD 奇异值分解
- 一个大矩阵分成3个小矩阵中间的是一个k方阵
- SVD只适用于没有缺失必须是稠密矩阵
Funk SVD
- 一个大的分成两个小矩阵
- LFM 原理
BiasSVD 矩阵分解+baseline
SVD++ 矩阵分解+baseline+其它影响（点击，收藏，购买）

基于内容的推荐

画像构建给用户/物品打标签
- 物品画像
  - 分类信息
  - 标题
  - 电影/音乐主演、歌手
- 用户画像
  - 喜好的物品类别行为偏好
  - 基本人口学属性
  - 活跃程度
  - 风控纬度
PGC 应用自己生成
UGC 用户来生成
基于内容推荐的算法流程
- 用户画像/物品画像
- 匹配用户画像物品画像
物品冷启动问题
- 画像->词向量->物品向量->计算物品相似度了
- 从文本描述的角度找相似的物品
- 当用户在浏览A的时候通过上述套路找到跟物品A相似的一系列物品

基于内容推荐流程

① 建立物品画像

①用户打tag ②电影的分类值
根据电影的id 把tag和分类值合并起来求tf-idf
根据tf-idf的结果为每一部电影筛选出 top-n（tf-idf比较大的）个关键词
电影id-关键词-关键词权重

② 建立倒排索引

通过关键词找到电影
遍历电影id-关键词-关键词权重数据，读取每一个关键词，用关键词作为key [(关键词对应的电影id,tfidf)] 作为value 保存到dict当中

③ 用户画像

看用户看过那些电影，到电影的电影id-关键词-关键词权重数据中找到电影所对应的关键词
把用户看过的所有的关键词放到一起统计词频每个词出现了几次
出现次数多的关键词作为用户的兴趣词，这个兴趣词实际上就是用户画像的关键词

④ 根据用户的兴趣词找到兴趣词对应的电影多个兴趣词可能对应一个电影 {电影id：[关键词1权重，关键词2权重]}

把每一个部电影对应的关键词权重求和之后排序权重比较高的排在前面推荐给用户

词向量

用向量来表示词语可以表示语义层面的含义
如果用word2vec模型创建的词向量，两个词向量相似度比较高，说明这两个词是近义词
词向量作用把含义相近的判断转换成向量的相似度计算
使用 gensim Word2Vec模块训练词向量模型

import gensim
#准备所有用来训练词向量模型的文本内容
sentences = list(movie_profile["profile"].values)
# 参数1 文本 参数2 window 观察上下文关系的窗口长度
# min_count 训练模型时要保留下的词语出现的频率 iter=20 迭代20词
model = gensim.models.Word2Vec(sentences, window=3, min_count=1, iter=20)

通过词向量模型找到topn相似词

model.wv.most_similar(positive=['要找到相似的词的词语'], topn=10)

文档向量

from gensim.models.doc2vec import Doc2Vec,TaggedDocument
documents = [TaggedDocument(words, [movie_id]) for movie_id, words in movie_profile["profile"].iteritems()]
# 训练模型并保存 Doc2Vec 通过向量来表示一篇文档  一篇文档就对应一个电影
#向量的相似度 代表了电影额相似程度
model = Doc2Vec(documents, vector_size=100, window=3, min_count=1, workers=4, epochs=20)
words = movie_profile["profile"].loc[6]
inferred_vector = model.infer_vector(words) #传入电影的标签 找到电影文档所对应的向量

# 通过docvecs找到传入的向量最相似的n个向量 每一个向量代表了一个电影
sims = model.docvecs.most_similar([inferred_vector], topn=10)

加油!

感谢!

努力!

以上是关于推荐系统基础-纪要的主要内容，如果未能解决你的问题，请参考以下文章

编写可维护的Javascript纪要

HADOOP集群救火：一次Hive服务卡顿问题解决纪要

推荐系统基础-纪要

推荐系统纪要

推荐概念

Lambda 架构介绍

推荐算法架构

推荐模型构建流程

协同过滤思路介绍

相似度计算

使用不同相似度计算方式实现协同过滤

协同过滤基于模型的算法

推荐系统的评价

推荐系统的冷启动

基于内容的推荐

基于内容的推荐基于物品的协同过滤区别

矩阵分解

基于内容的推荐

基于内容推荐流程

词向量

推荐系统基础-纪要

推荐系统纪要

推荐概念

Lambda 架构介绍

推荐算法架构

推荐模型构建流程

协同过滤思路介绍

相似度计算

使用不同相似度计算方式实现协同过滤

协同过滤 基于模型的算法

推荐系统的评价

推荐系统的冷启动

基于内容的推荐

基于内容的推荐 基于物品的协同过滤 区别

矩阵分解

基于内容的推荐

基于内容推荐流程

词向量

协同过滤基于模型的算法

基于内容的推荐基于物品的协同过滤区别