双十一了,送大家几本书吧!包邮!
Posted 机器学习算法与Python学习-公众号
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了双十一了,送大家几本书吧!包邮!相关的知识,希望对你有一定的参考价值。
点击 机器学习算法与Python学习 ,选择加星标
精彩内容不迷路
哈喽,各位小伙伴
双十一,你剁手了?
双十一,你剁手了?
双十一,你剁手了?
平台给你推荐的商品你喜欢吗?
喜欢
喜欢就对了
今天送5本《实用推荐系统》
让你了解推荐系统内部的原理
奖品:5本《实用推荐系统》
参与方式:本文文末留言,谈论你对推荐系统的看法与了解,留言最走心的5位小伙伴分别送一本实用推荐系统;
开奖时间:2021年11月15号12点(如有问题可联系小助手wx:MLAPython)
要构建一个实用的“智能”推荐系统,不仅需要有好的算法,还需要了解接收推荐的用户。本书分为两部分,第一部分侧重于基础架构,主要介绍推荐系统的工作原理,展示如何创建推荐系统,以及给应用程序增加推荐系统时,应该如何收集和应用数据;第二部分侧重于算法,介绍推荐系统的算法,以及如何使用系统收集的数据来计算向用户推荐什么内容。作者还讲述了如何使用最流行的推荐算法,并剖析它们在Amazon 和Netflix 等网站上的实际应用。
以下是本书的部分内容
在电影《机器人瓦力》(WALL-E)中,人类变成一种没有形状的东西,一生都活在屏幕前的一把椅子上,所有跟他们有关的东西都被输入计算机(想想看,我大部分时间都坐在屏幕前,但至少我会在屏幕之间移动)。由于大多数人除了被连接到推荐系统之外还有其他事要做,因此我们需要降低一些期望值。但是通过网络,我们比任何实体店都更接近用户,所以我们可以了解到更多东西。
内容与提供商的关系
分类法中有一个维度就是目的。目的很重要,因为它可能会产生用来计算推荐的特定策略,以及你想要推荐的内容。
我们拿一部电影来举例子 :如果你在 Netflix 上看了一部糟糕的电影,它会告诉你一些关于 Netflix 上的内容质量的事情,因此你会认为 Netflix 有些方面做得不够好。如果亚马逊出售了一部糟糕电影的蓝光光盘,你可能不会认为这是亚马逊的错,但是如果你在亚马逊上找这部电影却找不到,你就会认为这是亚马逊的错了。
Netflix 的目的是展示你喜欢的好电影。亚马逊向你展示要买的东西,但你是否喜欢它们并不重要。要说亚马逊完全不在意你是否喜欢也不公平,毕竟它在推动用户写评论和给内容打分上投入了大量资源,但为了举例,我们假设它是这样的。
一、捕获访客印象
为了更好地说明消费者 - 商品关系生命周期中发生的事件,我将其分为以下步骤,如下图所示。
1 消费者浏览网站。就像在实体店一样,消费者会四处看看店里有什么,他们没有明确的目标。需要注意的是消费者在哪些地方停留并表现出兴趣。
2 消费者对一种或多种商品感兴趣。这有可能是消费者从一开始就知道他在寻找特定的东西,也可能是偶然间产生的兴趣。
3 消费者将商品添加到购物车或待购清单中。
4 消费者购买商品。
5 消费者消费商品。例如,观看电影或阅读书籍。如果这个商品是一次旅行,那么消费者会踏上旅程。
6 消费者为商品评分。有时候消费者会返回商店 / 网站为商品评分。
7 消费者转售或以其他方式处置商品。商品的使用寿命已经结束,它被处理、删除或转售 ;在这种情况下,商品可能会再次经历相同的循环。
稍后我们将探讨在这些步骤中可以收集到什么。但是请注意,明确的反馈是以评分的方式在第 6 步或之后的步骤中完成的。这已经到了整个过程的后期。因此,如果人们通常谈论的第一件事是商品评分,你应该在这之前准备好数据(比如默认的初始的评分)。
二、可以从浏览者身上学到什么
现在我们来详细解读上图中第 1~3 步中发生的事情。浏览者也就是浏览内容的消费者。他们可能会随机地浏览许多不同的内容,但往往会在相关或感兴趣的内容上停顿。在实体商店中,浏览者在店中漫步,没有表现出任何方向或目的。从某种意义上说,消费者正在为其日后的购买收集情报。
这里你需要收集的数据是浏览者在何处停留和研究商品。同样值得跟踪的是浏览者看过哪些内容而这些却没有引起他的兴趣。但是你能确定页面视图(商品视图)总是正确的吗?
页面视图
电商网站中的页面视图(page view)可能意味着很多事情。它可以识别出访客(或浏览者)对网站感兴趣,也可以识别出那些人在网站中迷路或在随意单击。在后一种情况下,大部分的单击不是积极的。迷路的用户会在访问网站时有很多次单击行为但没有产生任何转化。
另一方面,一个优秀的推荐系统可以减少页面浏览量。这是因为人们可以从推荐的链接和商品中找到他们想要的一切,而无须先到处浏览。
页面持续时间
要确定浏览你网站的访客对什么内容感兴趣,可以测量他在内容页面持续停留的时间。但这种方法够直截了当吗?如果你假设用户没有做任何其他事情,那么接下来他要做的就是通过当前页面上的链接跳转到一个新页面。表 2.3 给出了一种方法,解释了浏览者在页面上所花时间的可能含义。
你可以调整页面持续时间以适应你的业务领域,但我认为大多数人会同意上面这些解释应该是正确的。哪些数据值得保留下来?好吧,所有都值得。停留不到 5秒表明不喜欢,5 秒到 1 分钟可能意味着用户“感兴趣”,1~5 分钟可能意味着用户认为“这很棒”,5 分钟及以上就很难说了。所有这些都取决于页面的内容。这不是一门精确的科学。
扩展单击
除了页面持续时间之外,还有其他方法可以记录用户对内容的兴趣。添加小控件交互,能帮助你确定用户在做什么。例如,网站经常使用指向更多信息的链接,如图 2.4 所示。这对用户来说很方便,如果他们感兴趣,他们可以快速浏览或扩展链接。同样,用户可以向下滚动查看评论或技术细节。如果用户执行了其中的某个操作,就可以认为他对此感兴趣。
社交媒体链接
你还可以为那些非常喜欢某件东西、希望与其他人分享的人添加社交媒体按钮(参见下图)。你不能控制在 Facebook、Twitter 或其他社交媒体网站上发生的事情,但是你可以收集用户分享某件东西的事件。
保存以备后用
“保存以备后用”(Save for Later)的功能允许用户将东西添加到列表,该功能非常强大。如果用户发现了一些感兴趣的东西,为他们提供一个功能以便其保存那些东西以备后用(如果他们不立即购买的话),是一个很好的点子。这个功能的形式可以简单到像为页面添加一个书签链接。更进一步,可以做成愿望列表、收藏夹列表或浏览列表,这取决于内容的类型。其他表明用户感兴趣的迹象可能是下载宣传册、观看有关特定内容的视频,或者针对某个特定主题注册一个消息通知。
检索词
访问网站可能意味着人们要么正在浏览,要么正在寻找一些特别的东西。如果页面布局良好,大多数用户可以快速找到他们想要的内容。Netflix 表示,每次有人开始搜索,都被视为推荐系统的一次失败,因为这意味着人们在推荐系统中找不到任何想要观看的内容。我可以肯定地说我不认可这个观点 :我就经常使用搜索功能,因为有人推荐了一些我平时可能不会观看的内容。在任何情况下,检索词都是理解用户所需内容的最佳方式之一。
下图展示了一个 Netflix 搜索窗口。这个网站拥有海量的电影,所以如果你搜索“Wonder Women”(《神奇女侠》),它会显示类似标题的影片,即使“Wonder Women”不在目录中。
即使系统不能提供用户所搜索的内容,记录下该事件依然是有价值的。如果用户正在寻找电影,你就知道他对该内容感兴趣。有了这些信息,你的推荐系统可以推荐类似的内容。
将搜索到的项目与最终消费相关联
关于检索词(用户在搜索字段中输入的内容)需要考虑的另一件事是,将搜索的内容与消费的内容联系起来,这是一个好主意。比如说,用户搜索 Star Wars(《星球大战》)并观看了 Harlock: Space Pirate(《哈洛克 :太空海盗》),而这部影片又会涉及 Babylon A. D.,于是用户最终会看它。也许把 Babylon A. D. 放到对Star Wars 的搜索结果中是值得尝试的。
三、购买行为
购买商品意味着消费者认为该商品有用或可爱,或者它可能可以作为礼物。很难确定某次购买商品是消费者为自己买的,并因此而将其作为理解其偏好的部分证据,或者也许它是一个礼物或诸如此类应该被忽略的东西。
弄清楚哪些购买是在买礼物而哪些不是,这是一个有趣的问题。此次购买的商品与该用户迄今为止所消费的商品风格不同,可能表明这是该用户偏好的一个新维度,也可能说明它是一个礼物。不管怎样,它都应被视为数据中的离群点(outlier,异常值)。
从图形上看,显示为远离主体的点,如下图所示。因为你不能确定离群点的含义(是礼物还是新的兴趣),所以最好忽略它。相反,它也可能是新趋势的第一个指示器,那这就是一个可以探索的机会。
买东西的行为意味着该商品用一种很好的方式进行了展示,尽管它没有说明消费者是否喜欢这个商品。至少,如果这是消费者第一次购买商品,事实就是如此。第一次购买可能并不意味着认可,但第二次购买很大可能就是认可。无论哪种方式,购买都可以被解读为积极的信号。
四、消费商品
当有东西被购买时,商店就失去了与商品的联系,而且如果它不是由网站提供的流式商品或服务,就无法跟踪它的使用方式。
Endomondo
电影和音乐不是在线消费的唯一内容。Endomondo 是另一个提供在线服务的网站样例。这个社交健身运动网通过允许用户使用运动跟踪器来收集关于用户活动的统计数据。
Endomondo 会跟踪用户使用其功能的程度,该公司会据此推荐类似服务或了解应该在何处开发新服务。电话公司还可测量消费者如何使用他们的电话,它们可以用恐怖的方式跟踪我们。下面将讨论你可以从流式商品中学到什么。
流式商品
在流媒体服务(包括音乐、电影甚至书籍)的案例中,所有的用户交互都可以被视为隐式评分。用户听了一首歌,表示他喜欢它。但是,可以对这些数据做进一步分析。下面列出了用户与音乐或电影的互动。
1 开始播放 :用户感兴趣,这已经具有积极的意义了。
2 停止播放 :哦,等等,也许用户由于好奇开始播放,但开始播放后觉得它很糟糕,所以停止了。在前 20 秒内停止播放一首歌(或在前 20 分钟内停止播放一部电影)可能是一个不好的迹象。在接近结束的地方停止可以被认为是其他情况。
3 继续播放 :好吧,忘记系统里记录的所有负面隐式评分。停止后再恢复可以有很多种含义。如果在 5 分钟内恢复播放,可能是某人或某事打断了消费者,所以这种停止和恢复就无须考虑。但如果用户停止播放并在 24 小时之后恢复播放,则说明用户可能会喜欢这个内容。
4 快进 :如果用户在中间跳过某些内容,这可能不是一个好兆头—当然前提是这是他第一次观看。比方说,如果这部电影是这个用户第 10 次被观看,那么跳过一个无聊的场景可能并不会使电影的整体感受变差。本书的技术审校者就谈到,对于音乐,他常常快进歌曲来了解一首歌唱的是什么,或是否值得一听。歌曲的上下文比较少,所以通过快进,你可以知道自己是否喜欢其中的内容。但这不适用于电影。
5 播放到最后 :我们有了一个胜利者!这是一个很好的信号—用户可能不会对它评价很高,但如果他们坐在那里看完整部电影,可能意味着他们会观看类似的电影(播放到结尾意味着一直播放到电影结束并且片尾开始滚动)。
6 重播 :重播对于电影和音乐来说可能都是积极的信号,但对于提供教育视频的网站来说,可能表示该专题太难了。
这些步骤适用于大多数流媒体商品。如何从流式商品收集证据取决于所使用的播放器类型。
对于 Endomondo(它也是一种流媒体服务)而言,这些步骤和解释并不真正成立。从这个意义上来说,如果你启动 Endomondo 并表明你已经开始跑步(按“Play”按钮),那么如果你在 10 公里后暂停这个 App,这可能与你对这个 App 的喜爱程度没有任何关系,或许意味着你应该减肥了。
不喜欢某件东西可能意味着不必费心去评价它。但是如果有什么事情真的让你很恼火,你可能会想在某个地方释放你的懊恼,而这通常是以一个负面评论的形式出现的。
上图中的评分不是我给的。如果你有机器学习的背景,我绝对推荐 Deep Learning(MIT Press,2016)这本书 ;否则,你最好从 Andrew Trask 的 Grokking Deep Learning(Manning,2016)开始学习。
投票
许多网站围绕用户对某个事物是好是坏的投票,已经成功地建立起一个社区。例如,TripAdvisor 唯一的服务就是对酒店和餐馆的评分。另一个例子是 Hacker News,其中用户负责添加内容,这些内容可以是文章和博客的链接,主题是“优秀黑客发现的有趣的东西”。添加内容后,你可以对其投票。内容获得的票数越多,在页面上的位置就越靠前(几乎就是这么简单,稍后你可以好好看一下算法)。使用投票的网站被称为信誉系统(reputation system)。
奖品:5本《实用推荐系统》
参与方式:本文文末留言,谈论你对推荐系统的看法与了解,留言最走心的5位小伙伴分别送一本实用推荐系统;
开奖时间:2021年11月15号12点(如有问题可联系小助手wx:MLAPython)
觉得不错,请点个在看呀
以上是关于双十一了,送大家几本书吧!包邮!的主要内容,如果未能解决你的问题,请参考以下文章