《推荐系统》读书笔记
Posted 这不是bug
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《推荐系统》读书笔记相关的知识,希望对你有一定的参考价值。
最近在京东上搜索「推荐系统」,发现多出来许多新书。然后翻看下作者,基本都是混迹在推荐领域很多年,常年在知乎,ResysChina等写blog的知名博主。干推荐这一行的,这几年的确赶上了好时候。14年那会,推荐系统在国内,关注主要还是集中在学术界。商业界有,但绝对仅仅限于大部分的前沿部门。那时候有关推荐系统的博客很少。书籍的话,真正的中文书只有3本:2本译著,一本国内作者原创——项亮的《推荐系统实践》。作为国内推荐系统领域原创的第一本书,《推荐系统实践》本身质量也高,加上出版真是恰逢其时,所以绝对是火遍AI界,也给作者项亮本人带来了极高的知名度。现在过去了5-6年,推荐系统领域已经吸引了大批的进入者,经过了5-6年大的发展,老的那批也是开始到了要全面收割名利的时候了。
这次分享并准备整理的是陈开江的《推荐系统》。这位大佬前两年在极客时间开过一门「推荐系统」的入门级付费课程。这本书是在那门课程的基础上的一个升级。我原本想的是,目前市面上的这些推荐系统的书籍,无非就是把一些召回,排序的策略和算法堆积起来,也就是他们的一些博客的汇总,本身不值得花这个钱去买的。但转而一想,通用的算法哪都能了解到,但我是越来越觉得,推荐系统本身不需要多么高深的算法,至少不能单单依赖某个牛逼的算法,相反,做推荐本身的一些"道法",也就是不同经验的人的一些实践经验和思维方式,还是值得学习和借鉴的。况且,我本身也喜欢纸质书,天天盯着电脑手机,眼睛也要换种方式休息。
笔记会以一种比较随意的方式记录,大体不会大段抄录书中的内容。主要会把自己觉得有参考价值的东西,加上自己的一些体会和想法包装出来。内容可能较乱,多多包涵。
本篇为第一篇,主要为第一章和第二章的内容。
「推荐系统是一套综合打法,而不是单一工种」算法、技术需要积累,产品运营也很重要。
「 是否需要推荐系统?」作者的观点大致是:1)你的产品本身之间的连接交互多不多(比如新闻推荐,文章多不多,用户和文章之间的交互活不活跃?推荐系统最初衷的目标就是要解决信息过载的问题,信息如果都不过载,人工都能搞定,就没必要推荐系统了。此外,用户物品都很多,但连接/交互少,表现就是用户留存率低,这时候首先应该要查查用户流水的原因。);2)你的产品是不是希望建立越来越多的连接?现在推荐系统主要在哪些场景应用?新闻咨询,音乐电影娱乐、电商。显然,这些场景都是希望连接、交互越多越好,直白的说,就是越活跃越好。那那些没有应用到推荐的互联网产品,可能就是目的并不以建立更多连接的。作者举了个工具类产品。
「推荐系统的关键元素」
元素1:UI和UE
元素2:数据
元素3:领域知识
元素4:算法
其中,作者认为的重要性是按如上依次递减的:4<3<2<1。看到这个的时候,可能大多数的推荐从业者可能会有点不适应。因为大多数时候,我们谈推荐系统,说的就是策略算法。这里竟然说算法在这4个关键元素中最不重要? 不过冷静的想想,其实这样也挺有道理,而大多数习惯性认为算法很重要,甚至最重要,是因为团队中,可能很多不会配备有UI,UE相关的岗位,数据,领域知识也最多作为算法工程师的一项加分项了。
-- UI/UE关系到产品的脸面。直接决定了用户是否会持续使用该产品;只有用户能够不断回来,才有推荐系统的用武之地。
-- 数据;巧妇难为无米之炊,这个好理解。没有数据,算法也发挥不了作用。
-- 领域知识;这个其实就是我们常说的:算法工程师也要非常懂业务。比如作者提到的:电商产品中,普通用户更在意的是价格而不是兴趣;音乐产品中给某个歌手的忠实粉丝推荐歌手的任意一首歌都是徒劳;新闻类产品,新闻更新很快。这里突然让我想起一点:如果你对接的是各种各样的媒体。每个媒体中,其实时效性都是不一样的。一刀切的方式不能适用全部媒体,应该考虑分析下这个媒体的文章时效性影响,比如统计各个时间段的文章的点击率——是今天的文章的点击率高,还是近一周,甚至可能是前两周的?
--算法;算法的作用没有想象中的那么大,但也一定不是可有可无的。一种对算法的常见的误解就是:短期高估,长期低估。——这点我是深有体会,太多的人期望一上推荐,立马能对某个产品造成立竿见影的效果。有这样的期待往往短期内就会带来失望,也就不愿进行长期的投入。
「要具有什么样的思维模式」
目标思维;区分目标和约束,目标不能太多。比如,信息流产品的目标是提高点击率,然后兼顾多样性。尽管目标是点击率,但我们不能忽略了多样性。这里多样性是一个约束。约束不能当做目标优化。应该考虑通过设定阈值的方式来限定一个量化值。
不确定性思维;这个说起来容易,做起来难。可能都知道绝大多数推荐算法都是概率算法,无法保证确切的推荐结果,并不是每个推荐结果都是可以很好解释的(提高推荐的解释性一直就是推荐的一个难点)。作为算法策略工程师,可是多思考能不能通过某些日志工具来记录一个推荐结果的计算过程呢 ?这个自己的确应该在后续的工作中找个时间好好想想。
推荐系统的价值和成本
价值:信息过载,移动互联网时代,注意力变得稀缺。注意力就像电力。对于平台来说,这些电力是有价值的,需要把这些注意力存储起来,存储的注意力就是平台方最有价值的资产。行业外的人经常想不明白像今日头条,或者新浪网等之类的是怎么挣钱的。他们的价值是什么。其实他们的资产,就是你的注意力。只是然后需要把你的这些注意力(资产)变现而已。而推荐系统,就是某种型号的注意力存储设备,这就是推荐系统在商业联调中的角色和定位。(这一句是作者的原话,但说是存储「注意力」,或者仅仅是存储设备,我不是很理解,也不是很认同。实际上,对于媒体来说,推荐系统很多时候会帮助媒体获得更多的注意力。)。
补充一点:如果注意力(其实也就是流量吧)是媒体重要的资产,那时刻量化和跟踪这些资产的不断变化,就应该是非常重要的。也就是要建立比较健全的报表系统。这一点个人感觉很多团队都不重视。就算建立,很多也是从算法模型的角度出发来考虑。
成本:人力成本,硬件成本以及机会成本。
信息流简史
这一章节作者也是简单介绍。信息流产品已经火了很长的一段时间,也出现了很多强大的产品。进入推荐系统这个领域,信息流绝对是一个有必要多了解的产品形态。
本篇为《推荐系统》第一篇笔记,涉及的都是些概括性的内容。后面笔记会越来越涉及到更多算法技术性的东西。我的原则是,对于自己没有理解的内容,不会整理出来,对于整理出来的内容,我尽量争取让它听起来好理解。OK, 本篇笔记到此,下篇见。
以上是关于《推荐系统》读书笔记的主要内容,如果未能解决你的问题,请参考以下文章