如何破解YouTube视频推荐算法?

Posted 统计之都

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何破解YouTube视频推荐算法?相关的知识,希望对你有一定的参考价值。

编者按:你或许曾经黑着眼圈熬着夜看YouTube上的精彩视频,可是你知道它背后隐藏的算法么?本文翻译自Frederator Networks的前副总裁Matt Gielen,相信能够让你对Youtube背后的算法略知一二。


译者简介
陈开江@刑无刀,个性化推荐产品技术爱好者和从业者。为个性化推荐付出了这些的青春:
0)读研研究NLP(句法分析方向);1)新浪微博资深推荐算法工程师,先后负责微博反垃圾、基础数据挖掘、智能客服平台、个性化推荐等产品的后端算法研发;2)考拉FM算法主管,为考拉FM从0构建了个性化音频推荐系统;3)“边逛边聊”app(原名wave)联合创始人兼技术负责人。

作者简介
Matt Gielen是Frederator Networks的前副总裁, 主管编程和观众开发。 Matt所管的团队是世界上最大的动画制作网络公司,Frederator网络频道。 他还带领团队制作和编程了Frederator Networks自己的YouTube运营频道:Channel Frederator,The Leaderboard,Cinematica。 你还可以在twitter上关注他@mattgielen。


如果你是某个发行渠道(比如电影、戏剧、电视节目、网络视频)的内容工作者,那么内容的成败就取决于发行机制的运转逻辑。比如说,你制作了一档电视节目,你很想它能火起来,那么你就得知道该在哪里切入广告,怎么宣传节目,上哪个频道播放,所选的频道能被多少家庭收看,等等,诸如此类。

 
如果你的发行渠道是YouTube,那么你最应该搞清楚的是YouTube的算法是怎么工作的。然而,全天下所有由算法来运营的平台,要搞清楚这一点那不是一般的困难。
 
YouTube没有把他们算法用到的变量公之于众。要搞清楚其算法的运转原理,即使数据很有限,我们也得对这个大大的黑盒子一探究竟。有些算法倚重的变量,我们是一点数据也拿不到的(比如缩略图,标题印象,用户访问历史,用户行为,会话信息,等),如果能拿到这些数据,那等于就是把YouTube的算法脱光了让我们看,然而呢,呵呵哒,并没有。
 
看起来我们啥都没有,但还是想尽可能用手上这点数据大致搞清楚其算法逻辑。所以,我的前同事(为什么是“前”同事呢?因为我最近从Frederator离职啦,哇咔咔)Jeremy Rosen花了半年时间分析Frederator自己掌握和运营的频道数据,想搞清楚YouTube的算法。
 
开始之前,先明确一下:这篇文章内所指的算法包含多个YouTube增长类算法(为你推荐(Recommended),建议观看(Suggest),相关视频(Related),搜索(Search),原始评分(MetaScore),等等)。这些不同的算法产品,各有侧重,但有一个共同点,那就是它们的优化目标相同,都是观看时长(Watch Time)。

观看时长

先要说清楚的,“观看时长”并不是说观看过的分钟数。这个概念我们之前也讨论过[1],观看时长由以下指标构成:
 
  • 访问次数

  • 访问停留

  • 会话开始

  • 上传频率

  • 会话时长

  • 会话结束


本质上以上每一项都关系着频道以及频道的视频表现好坏,人们是不是经常来访问(开始一次页面访问的会话)以及是不是停留很长时间。
 
要在算法那里积累下任何变量的取值,你的频道和视频首先得有人来访问你才行。一个视频要成功(成功定义为订阅者中超过一半的人在前30天访问过)需要视频发布的前几分钟、前几小时、前几天内得到大量的访问,我们把这称之为访问速率( View Velocity)

访问以及访问速率
我们分析Frederator的访问速率,发现整个生命周期内累计访问次数与前48小时内订阅用户访问百分比呈指数关系。
如何破解YouTube视频推荐算法?
48小时内访问的订阅用户百分比与得到的平均访问次数

基于这个观察,我们稍微深挖了一下,发现用这个速率规律去预测一个视频是否会成功,可以做到92%的准确率。其实,还存在一个更直接的相关性:72小时内访问的订阅用户百分比,与视频整个生命周期的累计被访问次数之间。
如何破解YouTube视频推荐算法?
72小时内访问的订阅用户百分比与整个生命周期内累计的访问次数

这两个图以及相关系数充分说明访问次数和访问速率对视频和频道有着直接而重要的影响。除此之外,我们还有证据证明这个规律反过来也成立。差劲的访问速率不但影响这个视频本身,还影响其上一个和下一个视频。
 
下图说明如果Frederator上一个视频48小时内访问速率比较糟糕(少于5%的订阅用户访问),那么接下来上传的视频也会受其影响。
如何破解YouTube视频推荐算法?
访问了下一个视频的订阅用户百分比与访问了前两个视频的订阅用户平均百分比之间的关系

这个数据证实了Matthew Patrick的理论:如果某一个视频点击效果不好,那么你的下一次上传的视频,YouTube就不会给予太多权重让它被你的订阅用户看到。[2]
 
也可能是因为上一个视频表现糟糕,所以访问你的频道次数就会减少,自然地就导致更少的订阅用户以原生的方式访问到。不管到底“为什么”,结果反正就是酱紫。
 
另一个负速率对新上传视频的影响就是:有证据表明这还会伤害到你的整个视频库。下面的第一张图是视频上传48小时内就访问的订阅用户7天平均百分比(译者注:这7天上传了若干个视频,纪录每个视频上传后48小时就访问的订阅用户百分比,然后取这些百分比的平均值)与频道总访问次数(译者注:反应了整个视频库的效果)的关系。第二张图是某一天访问视频的总体订阅用户百分比与当日的总体访问次数之间的关系。
如何破解YouTube视频推荐算法?
七天内的平均“48小时内访问视频的订阅用户百分比” 与 每日整个频道视频访问总数之间的关系
如何破解YouTube视频推荐算法?
七天平均订阅用户访问人数与总体访问访问次数之间的关系

这些图标都说明一件事:一旦新上传视频和整个视频库的访问用户百分比走低,那么频道的总体访问次数也会走低。对于我们来说的启示是:YouTube算法更看重那些能够吸引到核心观众的频道,而惩罚那些不能吸引其核心观众的。

访问停留
另一个算法非常看重的指标就是访问停留(View Duration)。
 
访问停留就是用户会花多长时间停留在单个视频页面。这个变量的权重很高,我们的数据中能看到一个明显的引爆点。Frederator其中一个频道,前30天内,平均访问时长8分钟的视频,比平均5分钟的要多350%的访问量。下图表明,Frederator的一个频道的视频访问量,与平均访问停留时长的关系。
如何破解YouTube视频推荐算法?
整个生命周期内,平均访问时长和平均访问量的关系
* 注意,这里没考虑访问时长在八分钟之上的数据。

我们还发现,访问停留时长越长,视频表现越好。下面这张图是七天内访问停留时长少于5分钟的视频(1),介于五分钟到十分钟的(5), 十分钟以上的(10)分别与访问量的关系。
如何破解YouTube视频推荐算法?
七天内平均访问量与平均访问停留时长的关系

下面这张图也是一个意思,不过从7天拉长到整个生命周期内了。
如何破解YouTube视频推荐算法?
整个生命周期内平均访问量与平均访问停留时长的关系

基于这些发现,我们可以得出一个简单的结论:发布长视频可以提高访问效果。Frederator有一个关于儿童乐园的频道,每周会上传三到四个不同长度(3分钟,10分钟,30分钟。70分钟)的视频,我们发现每个视频发布后的48小时内,70分钟视频的访问次数远远超过其他长度的视频,哪怕是重发一些炒剩饭的旧视频。除此之外,70分钟的视频和其他版本的视频有相同的平均访问停留时长。
 
于是,我们建议公司每周就只上传70分钟长度的视频就好了。就用了这个策略,频道日均访问量增长了50万,而过去6周里我们上传的视频个数却减少了75%。好了好了,我知道你受刺激了,不要崇拜哥。 

会话开始,会话时长,会话结束

能做这篇研究,全都得益于我之前的一篇文章:《观看时长是个什么鬼》(WTF is  WatchTime?)[1]
 
快速回顾一下,会话开始(Session  Starts)就是指用户有多少次是从你的视频开始访问YouTube的。这其实说明了订阅用户能在前72小时访问你是多么重要。订阅用户是在视频发布后最早能看到的你人,他们也是最可能点击你频道图标的人,因为他们已经熟悉你的品牌了。
 
会话时长(Session Duration)就是你的内容让用户在YouTube平台上逗留了多久,他们访问你的视频,以及访问之后都算是在平台上逗留。除了用户平均访问时长(Average View Duration )和独立访问数( Unique Views),也没有更好的数据了。
 
会话结束(Session Ends)衡量用户是不是经常在看完你的视频后就离开了YouTube平台。这是算法利用的一个负面指标,但是我们根本拿不到数据。

一则算法理论
YouTube的算法设计时关注的是频道效果而不是单个视频效果。但是它要利用单个视频来提高频道效果。
 
算法结合了单个视频的特定数据和频道的聚合数据来决定推荐哪个视频。最终目标仍然是为频道聚拢其目标观众。
 
YouTube这么做是因为:
 
1. 让用户常常回访YouTube平台
2. 让用户在平台停留越久越好
 
下面有三张图表来证明这则理论是成立的。
 
第一张图是48小时内访问的订阅者比例与7天内总访问量之间的关系。这张图说明,如果开始有大量用户从你的视频开始的平台会话,那么你的视频就会获得很大的访问量。到达一个阈值之后,就会呈指数级增长。
如何破解YouTube视频推荐算法?
7日内总访问量与48小时内访问的订阅用户百分比

第二个图是频道内日均访问量与5日内访问的订阅用户百分比的关系。
如何破解YouTube视频推荐算法?
日均访问量与5日内访问的订阅用户百分比的关系

这意味着如果能一直让大量用户从你开始访问YouTube(近5天内平均来看),那么算法就会将用户每日访问向你整个频道视频库倾斜。
 
最后一幅图是日均访问的订阅用户百分比与5天内访问的订阅用户百分比之间的关系。
如何破解YouTube视频推荐算法?
日均访问的订阅用户百分比与5日内访问的订阅用户百分比之间的关系

我们相信这一切都表明,频道效果的连贯性与访问量之间存在相关性,访问量又表现在订阅用户访问百分比,YouTube就会因此把流量倾斜给你。
 
假如说你有一个游戏频道,10万个订阅用户,你每天上传6个视频,每个视频有5%的订阅用户访问。你的每个视频的平均访问订阅用户会稳定在区区5%。这意味你会每天产生30%的订阅用户访问次数(3万/天,60万/月)。现在假设你有1百万订阅用户,那么每日访问次数在30万,每月在600万。
 
我们认为这一段数学运算是不会骗人的。这意味YouTube在根据一些指标选择一些频道进行推荐,然后只要算法帮这个频道提高访问量。
 
但,壮士请留步,以上还仅仅是理论上的分析!

一种打分算法
这里我们打算破解YouTube的算法,然后重建一个。用了15个信号量,以及我们估计的权重,来重新构建打分算法。信号量列举如下:
如何破解YouTube视频推荐算法?
用来开发打分算法的信号量/因素

下面这些图是这些信号量实际产生的效果。
如何破解YouTube视频推荐算法?
三天的算法平均分与访问量的相关趋势
如何破解YouTube视频推荐算法?
算法打分与访问量的相关性趋势

下面这张图更详细一些。
如何破解YouTube视频推荐算法?
三天的算法打分均值与每日访问量

知道你还是很好奇,那下面就揭晓我们模拟出来的各种权重:
如何破解YouTube视频推荐算法?
各种算法的权重分布模拟
如何破解YouTube视频推荐算法?
观看时长优化算法的各信号量权重分布模拟
如何破解YouTube视频推荐算法?
相关推荐及其他算法的各信号量权重分布

然而但是but,我们也没有其他数据了,所以我们也不敢肯定在计算相关性时该用哪种回归方式,也只敢说大多数信号和算法之间很相关,而已。也正因为如此,我们对YouTube算法一直热情不减。

对YouTube算法的看法
根据我们的数据,至少可以得到6个粗浅结论:
 
1. YouTube用算法决定了我们的视频和频道能得到多少访问量。
2. 成功的频道都是专注在特定类型的内容或创意上。
3. 频道自己一旦明确了哪种类型的内容成功之后,就不要再摇摆了。
4. 内容制作者光靠钱在YouTube平台上绝无可能成功,因此土豪型的制作者不太会全身心拥抱YouTube。
5. 个性化的节目/频道会一直是YouTube上面占统治地位的内容类型,因为这就是人们要找的“特定类型的内容”。
6. 新建的频道,如果不能在YouTube站外导流进去的话,相当长时间内增长都会比较困难。
 
前面说到,YouTube更注重于提高频道的访问效果,这个观点只是我们推测得到的。频道能够上传很多视频,从而获得和留住大量的目标观众。如果你想在YouTube上成功,我们能给的建议就是:瞄准一个非常垂直的兴趣类型,然后持续去制作10分钟以上的视频,一定得是你选定的这个兴趣类型的视频。
 
我这里是私人博客,需要提醒一下,YouTube可是储备了大量的算法弹药啊,也希望他们不把本文视为对算法的负面消息。通过这篇研究,我更加感谢YouTube及其算法工程师们,有预见性地设计了这些算法。毕竟,他们还是想努力让这个世界上的十亿用户能在一个月内不重样地观看视频。如果你能停下来回头再整体上审视一下这一切,你会惊叹于YouTube算法设计如此优雅,在实现商业目标上和保护平台健康发展上做得难以置信的好。为他们点32个赞!

译者注:
最初看到这篇文章是@fengyoung 在Facebook上分享的,觉得题目很有意思就看了一遍,看完后感觉很有启发,遂决定翻译一下让更多人看到。

 这篇文章给我的启发有三方面:

1. 从YouTube平台的算法设计人员角度,设计繁多的推荐算法,是为了提高频道的观看时长,而提高频道的观看时长又是为了让用户能够经常访问平台。这是一种双赢的思维,说白了:谁能帮平台留住用户,平台就重点扶持他。
2. 文章得出结论,要做垂直内容才能在YouTube上活下去。平台上内容越多样,平台越健康,这是毋庸置疑的,尽管我赞同这个结论,但是我没有在本文中看到作者是如何得到这个结论的。这一点就是YouTube和国内视频平台最大的差别,国内的视频平台严重趋同,花高价购买独家版权似乎是国内视频平台的唯一出路,也是一个妖魔化的出路,反观YouTube,他们利用算法驱使了各个频道专耕某一个垂直内容,然后把最适合的用户给你匹配上,这才是更宏大的一盘内容棋。
3. 本文作者给我们了一个启示,算法并不是黑盒子,是可以hack的,尽管这个也只能hack到冰山一角,但是也比我们盲目地运营要明亮很多了。作者的研究方式,首先是明确了一个平台的算法目标是什么,YouTube是watch time,那么就去观察这个目标和哪些指标有关,进一步看到每个指标又能怎么提高。

 注  释 
[0] 原文:http://www.tubefilter.com/2016/06/23/reverse-engineering-youtube-algorithm/
[1] http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/
[2] https://www.youtube.com/watch?v=HLJQ0gFHM8s



本文编辑:邓金涛

审稿人:熊熹、魏太云


版权公告
原创文章,版权所有。

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:editor@cos.name ),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都二维码。



统计之都:专业、人本、正直的中国统计学门户网站。

关注方式:扫描下图二维码。或查找公众帐号,搜索 统计之都 或 CapStat 即可。


往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。


统计之都欢迎诸位看官积极投稿,投稿信箱contact@cos.name


以上是关于如何破解YouTube视频推荐算法?的主要内容,如果未能解决你的问题,请参考以下文章

Youtube 算法规则

危险的视频推荐算法

资源 | 主要推荐系统算法总结及Youtube深度学习推荐算法实例概括

推荐算法论文:Deep Neural Networks for YouTube Recommendations

深入理解YouTube推荐系统算法!

从YouTube算法论文反推其推荐机制