抖音推荐机制与算法探讨

Posted studyer_domi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抖音推荐机制与算法探讨相关的知识,希望对你有一定的参考价值。

图片

通过数据的分析,我们发现在传播效果方面,抖音>小红书>微信朋友圈>新浪微博。究其原因是内容分发的逻辑存在非常大的差异。

  • 微信朋友圈、新浪微博:订阅模式,用户仅能看到好友或关注者的信息

  • 抖音、小红书:非订阅模式,用户可以看到个除关注用户以外的其他内容

微信虽然可以通过转发传播,但是在转发意愿度层面会消弱传播效果。朋友圈转发困难度较大,很难进行二次传播。而非订阅模式的抖音模式通过算法机制,可以将内容一次次的推送给潜在感兴趣用户,致使内容可以大面积的广泛传播。

  • 从创作者角度:只需内容足够“优秀”,就能获得很好的分发机会

  • 从普通用户角度:无需寻找信息源也能获取“优质”的内容

关于抖音的分发推荐机制参考字节跳动旗下的“中视频平台”西瓜视频的推荐机制介绍。

西瓜视频的推荐机制

要了解推荐机制,首先我们要了解观众。每个观众的观看兴趣都是大不相同的,个性化推荐机制要做的事情就是让每位用户看到可能感兴趣的内容。这种精准推荐,是建立在机器对每位用户都有充分认知的前提下的。在机器中,每位用户实际是由大量数据构成的,用户的观看兴趣就藏在这些数据中。不同数据对用户兴趣计算所占权重不同,数据包括:

  • 性别、年龄、所处城市;

  • 关注的帐号、常浏览的频道、关注的话题;

  • 观看过的视频分类和关键词;

  • 相似类型的其他用户还喜欢观看的其他视频类型;

  • ….

推荐系统的本质,就是从一个海量的内容池里,为观众匹配出少量感兴趣内容。为了给用户提供他们喜欢的内容,或者理解用户的需求,平台有很多角度可以去刻画一个用户的画像,比如,年龄、性别、历史浏览的文章、环境特征等;同时,利用先进的AI技术对内容进行分门别类。紧接着,推荐机制就像一座“桥梁”,连接观众和内容,将内容源源不断地推送到感兴趣的用户面前。这座“桥梁”有两个特点:

  • 兴趣匹配:观众的观看类型与内容分类重合度最高,被系统认定最可能对该内容感兴趣。

  • 分批次推荐:首先会被推荐给一批对其最可能感兴趣的观众,这批观众产生的数据,将对内容下一次的推荐起到重要作用。

视频的首次推荐,如果点击率低,转评赞不高,系统认为视频不适合推荐给更多的用户,会减少二次推荐的推荐量;如果点击率等数据高,系统则认为视频受用户喜欢,将进一步增加推荐量。以此类推,视频新一次的推荐量都以上一次推荐的点击率等数据为依据。例如,一个视频首次推荐给了1000个用户,如果这批用户的点击率、完播率等较高,系统判定用户非常喜欢这篇视频,将其扩大推荐给10000个用户,如果这轮推荐用户的点击率、完播率等仍然维持在较高水平,那么系统会将视频再次扩大推荐给30000个用户、50000个用户、100000个用户……推荐量和播放量便如滚雪球一般节节攀升。因为这种扩大推荐的机制,创作人想获得更多的播放量,就必须努力把各维度阅读数据(点击率、用户播放时长、收藏数、评论数、转发数等)维持在高位水平。这就要求视频:

  • 标题和封面图具有足够的吸引力、表意清晰,提高点击率;

  • 视频内容优质,剪辑解说俱佳,提高用户播放时长和播放完成度;

  • 内容详实,给观众干货般的充实感,提高收藏数和用户播放时长;

  • 观点鲜明,引发观众讨论,增加评论数和转发数。

其中,至关重要的当然是点击率,完播率,转评赞等,也因此,标题和封面图的重要性便不言而喻。这也是今天注意力稀缺时代,播放获得好的传播的关键要素。有吸引力的标题能带来更多点击,但这不意味创作人要成为惯用夸张标题的标题党。恰恰相反,标题党反而会被平台通过技术手段识别和打压,限制推荐量。除了标题夸张,用户举报密集、负面评论过多都是限制播放推荐量的因素。归根结底,一个作品能否获得更多推荐最终取决于内容质量,好的内容才能带来流量的长效增长。

从西瓜视频到抖音短视频

关于抖音的分发机制完善流传着这样一份的流程图,整体流程和上面的西瓜视频的介绍的推荐逻辑类似。后续我们就根据下面的流程进行深入的研究与分析。

图片

检测机制

在抖音,每天有数量庞大的新作品上传,需要对一些内容进行过滤,从目前公布的内容看,检测主要集中在:

  • 去重检测:抽帧检查视频是否存在搬运、抄袭问题

  • 违禁检测:字幕、标题中是否涵盖违禁词汇,有无裸露

  • 版权检测:音乐版权是否侵权,大陆有无版权问题

如果纯靠机器可能存在一些误判,人工一一确认又不太现实。所以采用机器检测和人工检测的结合。

机器审核:一般是通过提前设置好的人工智能模型来识别你的视频画面和关键词,它主要有两个关键作用:

  • 审核作品、文案中是否存在违规行为,如果疑似存在,就会被机器拦截,通过飘黄、标红等提示人工注意;

  • 通过抽取视频中的画面、关键帧,与抖音大数据库中已存在的海量作品进行匹配消重,内容重复的作品进行低流量推荐,或者降权推荐(仅粉丝可见、仅自己可见)。

  • 有没有出现广告、有没有带水印或者LOGO、内容是否裸露、不雅、血腥等

人工审核:主要集中在3块:视频标题、封面截图和视频关键帧。

  • 针对机器审核筛选出疑似违规作品,以及容易出现违规领域的作品,抖音审核人员进行逐个审核。

  • 如果确定违规,将根据违规账号进行删除视频、降权通告、封禁账号等处罚。

图片

通过检测是迈向内容分发的第一步,如果第一步没通过则相当于被关进了小黑屋。违规检测相对来说比较容易规避。版权检测,特别是音乐版权有时不清楚自己使用的音乐是否合规,保守方案是使用抖音上目前热门视频所使用的音乐。去重检测其实是一个很容易误触的机制,特别是一些模仿性质的内容,可采取的方案是更换不同的背景、角度、服装等。录屏性质的视频非常的特别特别容易触发去重检测,取而代之的是摄屏的方式,摄屏是可以采取不同的背景和角度,但需要注意的是保证摄屏时的清晰度。

赛马机制

抖音的算法其实是一个赛马机制。简单的说就是先将视频推荐给小部分人群,收集这部分数据的表现情况,再将表现好的视频分发到更大的范围。

所以抖音流量的增长方式并不是线性的,增长曲线更多类似:

图片

从目前了解的资料看,抖音的赛马机制总共有三种方式:

  • 初级分发:通过机制确认无违规后由附近的人/关注/好友/标签组成的初级分发流量池

    • 通讯录好友:提取你的手机电话通信录中的手机号码,将电话号码上传到抖音服务器,匹配好友。

    • 共同联系人:类似QQ共同联系人推荐,抖音也会使用共同联系人进行关系绑定

    • 以前还有通过抓取微信好友关系链的,后来好像被腾讯告了

  • 多级推荐:根据初级流量回馈评分达到算法设定的分值进入下一级流量池推送

  • 热门推荐:根据热门推荐算法结合先前流量回馈评分选取优秀视频进行人工审核,做精热门推荐,审核的范围可能包括

    • 搬运、非原创视频:含有其他平台水印、视频ID与上传ID不符、明显盗录内容

    • 低质量视频:内容物故事性、完整度差、视线模糊

    • 广告营销:明显的广告营销类型信息

    • 隐性风险:出现标题党、危险动作、令人不适元素等高危内容

    • 未授权明星/影视赛事类视频:视频内容侵权

以下是网友通过数据的整理的大致抖音流量池分级情况:

  • 首次曝光,300左右播放量

  • 二次曝光,3000左右播放量

  • 三次曝光,2~1.5W左右播放量

  • 四次曝光,10~12W左右播放量

  • 五次曝光,40~60W左右播放量

  • 六次曝光,200~300W左右播放量

  • 七次曝光,700~1100W左右播放量

  • 八次曝光,3000W+播放量

流量触顶

抖音作品经过双重审核、初始推荐、叠加推荐层层引爆之后,通常会给账号带来大量的曝光、互动和粉丝。而这种高推荐曝光的时间,一般不会超过一周。之后,爆款视频乃至整个账号会迅速冷却下来,甚至后续之后发布的一些作品也很难有较高的推荐量。主要原因:

  • 抖音每天的日活是有限的,也就是说总的推荐量是基本固定的,需要把机会尽可能的给到更的创作者

  • 与你内容相关标签的人群基本完成推荐,其他非精准标签人群反馈效果差,所以停止推荐

  • 抖音也不希望某个账号仅通过一个视频就大火,而是期望你能持续不断的输出优质内容

推荐机制

单有赛马机制对于抖音来说还不够,抖音想要的提升的用户的观看体验,最重要的是将合适的内容推荐给合适的用户。想了解抖音的个性化推荐算法先从数据角度进行分析,以下是抖音前端返回的数据:

视频信息:

  • aweme_id:视频ID

  • desc:视频描述

  • create_time:创建时间

  • height:视频高度

  • width:视频宽度

  • dynamic_cover:动态封面

  • ratio:清晰度

  • has_watermark:是否有水印

  • bit_rate_gear_name:码率清晰度(视频清晰度可能影响视频评分?)

  • quality_type:质量类型

  • bit_rate:视频比率

  • is_h265:是否为H265视频

  • duration:时长

  • user_digged:作者自己点赞

  • allow_share:是否允许分享

  • allow_comment:是否允许评论

  • with_goods:包含商品

  • is_top:是否置顶

  • is_vr:是否VR视频

  • is_ads:是否广告视频

  • risk_infos:风险信息

  • position:位置

  • is_pgcshow:是否PGC内容

  • interaction_stickers:互动贴纸

音乐信息:

  • id:音乐id

  • title:音乐标题

  • author:音乐作者

  • album:音乐专辑

  • cover:音乐封面

  • duration:音乐时长

  • has_edited:音乐是否被编辑过

  • user_count:使用人数

  • collect_stat:收藏人数

  • owner_id:作者id

  • owner_nickname:作者昵称

  • is_original:是否原创

  • binded_challenge_id:绑定挑战赛

  • strong_beat:节拍数据(可绘制波形图)

  • is_commerce_music:是否商业音乐

  • is_original_sound:是否原声

  • shoot_duration:视频使用时长

用户信息:

  • nickname:创作者昵称

  • avatar:头像

  • signature:签名

  • total_favorited:总获赞

  • fans_count:粉丝数

  • following_count:关注数

  • dongtai_count:动态数

除了这些基础的信息外,针对推荐系统,通常最需要获取的是用户的行为数据:

  • who,唯一的用户标识

  • when,具体时间

  • where,地理位置

  • what,交互的内容(包括上面的使用、音乐和创作人)

  • which ,用户的行为(上滑、下滑,左滑、右滑、点赞,关注,点评……)

  • environment,网络环境、运营商画像、设备品牌型号…

推荐系统一般有以下四个部分组成:

  • 用户画像,系统根据用户基本属性(比如:性别、年龄、学历等)、兴趣爱好(比如:科技、娱乐、体育、金融等)等数据集,然后给用户定义相关的标签。

  • 内容画像,系统根据内容的层级分类、关键词、实体词等分析出特点,给各类内容打上相关的标签。

  • 用户与内容匹配,有了用户标签和内容标签之后,系统根据用户画像、内容画像,在内容池里面匹配出用户喜欢的内容然后展示出来。

  • 推荐排序,系统要面对数亿级的用户和内容,同时还要考虑用户的喜欢会不断的发生改变,为了让挑选的内容更加的贴近用户想要的、更加符合用户喜欢,系统需要对内容进行排序。

做常见的推荐算法为协同过滤,协同过滤算法通常会被分为两大类:

  • 基于物品的协同过滤:分析用户喜欢过的内容;找到与该内容相似的内容,推荐给用户。

  • 基于用户的协同过滤:找到这个用户相似的目标群体;把该群体用户喜欢过的内容推荐给这个用户。

图片

对于抖音来说,每天产生的视频非常的多,如果抖音使用基于物品的协同过滤算法做推荐,则需要对平台的每条内容做相似度计算,除了需要识别视频画面中出现的物品以及他们之间的关系外,还要识别视频的背景音乐、台词。显然,对于以视频为主要内容的抖音来说,选择这种推荐算法是极其不明智的。如果使用基于用户的系统过滤算法取推荐算法就不必知道某条内容是什么,只需要看到某一群人都喜欢这条内容就可以把这群人归到同一类人里。严格意义上说,抖音给用户的打的并不是具体的属性标签,而是类似聚类出来的一个ID。

图片

以上介绍的知识最初级的推荐算法的逻辑。抖音的多级流量池,实际是基于上一级流量池的响应数据利用类似Lookalike 算法去扩大用户群。

抖音的算法并不会仅仅像上面介绍的一样,中间还需要考虑非常多的其他场景和因素。比如初级分发,其实就是推荐算法中的冷启动问题。对于一个全新的视频无法通过系统过滤的方式给推荐出去。退而求其次的方式是给视频和用户打上标签属性,再通过标签的匹配筛选做可能的用户做打样。中间又涉及到两个问题:

  • 如何给视频打标签

  • 如何给用户打标签

如何给视频打标签?

  • 视频添加的标签hashtag

  • 视频的标题内容,通过对视频标签进行文本分析确定。

  • 视频内容中可能出现的字幕、语言内容转化成文字后的文本提取?(这个实现起来较难,不确定)

  • 视频发布者历史发布的内容类别

基于以上大概能给一个视频初步的分类。

图片

一般推荐系统的分类都要按照层级进行划分的,如下图:

图片

如何给用户打标签?

  • 通过历史用户操作反馈的,基于历史反馈的视频的标签统计汇总用户信息

  • 通过阈值筛选用户感兴趣的标签

图片

引申话题:如何让冷启动更有效?

  • 发布账号尽可能的有明确的定位

  • 视频标题有出现关键字,而不仅仅是一些吸引眼球的无关内容或文青式的话术

  • 给视频打上合适的hashtag

  • 超过300以上的活跃关注者(粉丝多更容易拉高互动数)

二次引爆

除了以上正常的流量池流程外,抖音还有两种额外的情况:

  • 再发一遍就会火:出现这种情况的可能原因是冷启动阶段,你的视频内容被推荐给了错误的目标用户,这部分用户对视频的反馈比较低,导致没有进入多级推荐。再次上传后目标用户得到修正。

  • 老视频莫名奇妙火:可能你的视频前期匹配的用户群不够精准,导致未达到推荐阈值。但随着时间推移,视频点赞率等都突破了一定之触发了重新推荐机制。

考核机制

短视频想要进入下级流量必须满足一定的指标要求,并且由于流量池越开越大,响应的匹配精度越低,平台想要控制整体内容的满意度,对于指标的要求也会越来越高。抖音推荐算法中的赛马机制主要看中的视频指标由以下部分组成:

  • 账号分值:

    • 完成度:头像、昵称、签名、性别、其他资料

    • 健康度:内容质量、话题专业度(历史视频表现?)

    • 认证:是否达人认证

  • 视频分值:通过算法加权?

    • 完播率

    • 点赞率

    • 评论率

    • 分享率

    • 转粉率

图片

如何评级视频质量的好、中、差?

  • 完播率:尽量控制15-40秒,太短抖音嫌弃,太长用户耐心不够划走。选择优秀的歌曲可能保证完播率(用户想把歌听完)

    • 0-10%——较低

    • 10%-30%—— 一般

    • 30%以上——较好

  • 作品平均播放时长:前3秒是关键!抓人眼球,多留悬念、反转、梗。让粉丝带着期待坚持看完。

    • 3秒以下——较低

    • 3-7秒—— 一般

    • 7-15秒——较好

    • 15秒以上——很好

  • 互动率:开头和结尾的设计很关键,打造独特的”记忆点”,可以引导粉丝点赞留言。

    • 点赞率:5%以上

    • 评论率:1%以上

    • 转发率:5%以上

  • 吸粉率:有趣又有用的内容,是吸粉关键。

    • 1%以上

什么样的视频有爆款潜质?

通过数据统计得到的结论:

  • 完播率:30%以上

  • 点赞率:10%以上

  • 评论率:5%以上

  • 分享率:1%以上

所以,一个作品发出后,基本前面一两个小时,或者30分钟左右,就能预测到是否会火了。如果1小时之内,播放量突破5000,而点赞量能大于100,评论数大于10,那么,得到系统推荐的机率就大很多了,基本上离热门也不远了。

以上是关于抖音推荐机制与算法探讨的主要内容,如果未能解决你的问题,请参考以下文章

抖音50小时:区块链的共识机制能战胜推荐算法吗?

抖音的推荐机制到底是怎么算的?

抖音推荐算法深度解析,你离上热门只差......

抖音平台机制有哪些,热门机制算法和好友推荐机制是什么

深入探讨 Python 的 import 机制:实现远程导入模块

深入探讨 Python 的 import 机制:实现远程导入模块