推荐系统学习笔记(1-5)
Posted bohu83
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐系统学习笔记(1-5)相关的知识,希望对你有一定的参考价值。
因为受到通知,报名考试缴费后,前一阵有重拾起pmp,重做了两套题,谁知道疫情11.28的考试有推迟了。好好的考试 拖了2年了,还是看点别的吧。以下内容来自极客时间。
二 你需要推荐系统吗?
2.1 推荐系统能做什么?
可以吧用户(user)与物品(item)的产生的连接提前找出来 。
2.2 推荐系统需要做什么?
需要 从 已知的连接去 预测未来的连接。
2.3 怎么做?
机器推荐-个性化推荐;人工推荐-编辑推荐。
是否需要推荐系统?
工具类及链接数较少不需要。(长尾效应让推荐发挥作用)
还有其他非技术考虑因素:产品规划 ,技术人员储备等。
三 经典问题
推荐系统的使命是为⽤户和物品建⽴连接,建⽴的⽅式是提前找出那些隐藏的连接呈现给⽤户,这是⼀个预测问题;所以推荐系统的预测问题模式,从达成的连接⽬标⻆度区分,有两⼤类:
评分预测、行为预测。
评分是显性的,评分一个指标 :均⽅根误差(模型预测的分跟 用户实际分数)
行为 预测是隐性的 ,根据用户的行为历史数据 ,预测直接预测⾏为本身发⽣的概率,和预测物品的相对排序。指标:点击率ctr.
经典问题:冷启动 问题,探索问题,安全问题。
四 思维模式
4.1. 关键元素重要性的认识
UI UE》 数据》领域知识》算法
UI、UE、数据是⼀个产品的基⽯,要认识到重要性。在资源有限,精⼒很少的前提下抓⼤放⼩。
4.2 目标思维和不确定思维
传统的软件产品追求的是稳定和满⾜预期,背后思想强调的是逻辑和因果链条,软件体验上设定好⾏为和响应,软件设计上强调分层以应对⽆⽐复杂的操作逻辑。
反观推荐系统这种信息过滤系统,追求的是指标的增⻓,背后思想强调是⽬标和不确定性:
我们并不能很确定地模拟每个⼈将会看到什么,目标先行是常识。
我们把⼀个推荐系统也看做⼀个函数,输入是:UI、UE、数据、领域知识、算法等等,输出则是我们关注的指标:留存率 ,GMV等。我们做任何事情:加新的策略、替换现有的推荐算法、修改UI、甚⾄⼀些⽂案的调整,都是在改变这个函数的参数,是否有效就要看看函数的输出值,输出值在增⻓,说明修改就有效,就继续沿着那个⽅向修改,⼀旦⽆效或者起反作⽤就⽴即需要回滚。
⽬标思维背后是“量化⼀切”的价值取向。最先要量化的就是⽬标本身,整个团队才能知道在为什么⽽战,才能知道⾃⼰所做的动作是不是有意义,才能让团队⾃发地去寻找优化⽅向,接下来要量化的是所有的优化改进动作,要量化就要收集数据,数据收集对了才能得到正确的量化结果。
除了目标思维 ,还有需要不确定思维 。不确定性思维就是:不⽤因果逻辑严丝合缝地提前推演,⽽是⽤概率的眼光去看结果。原因如下 :
1.绝⼤多数推荐算法都是概率算法,因此本身就⽆法保证得到确切结果,只是概率上得到好的效果;
2.推荐系统追求的是⽬标的增⻓,⽽不是⼀城⼀池的得失;
3.如果去花时间为了⼀个Case⽽增加补丁,那么付出的成本和得到的收益将⼤打折扣;
第 五章 用户画像
没看本篇之前,我对这里有个 知识误区,以为之前看到的 带标签的常见的炫酷的,是用户画像。实际上大佬说的用户画像是对⽤户信息的向量化表示,给 机器看的而不是给人看的 。
⽤户画像的关键元素有哪些?
维度、量化。⽤户画像是跟着使⽤效果⾛的,⽤户画像本身并不是⽬的,就是个副产品,回归到推荐系统本身,是建立用户与物品的 链接,推荐系统在对匹配评分前,则⾸先就要将⽤户和物品都向量化,这样才能进⾏计算。⽤户向量化后的结果,就是UserProfile,俗称“⽤户画像”。所以,⽤户画像不是推荐系统的⽬的,⽽是在构建推荐系统的过程中产⽣的⼀个关键环节的副产品。
通常构建⽤户画像的⼿段有哪⼏类?
有三类,第⼀类只会查户⼝做记录,(包含数据 清洗,适合用户冷启动)
第⼆类就是从历史⾏为数据中去挖掘出标签,然后在标签维度上做数据统计
第三类就是⿊盒⼦看不懂(机器学习方法 ,可解释性差,但是 作用巨大)。
以上是关于推荐系统学习笔记(1-5)的主要内容,如果未能解决你的问题,请参考以下文章
[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用
斯坦福大学Andrew Ng - 机器学习笔记 -- 推荐系统 & 大规模机器学习 & 图片文字识别