让算法的黑盒子打开——今日头条推荐算法大公开

Posted AI栈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了让算法的黑盒子打开——今日头条推荐算法大公开相关的知识,希望对你有一定的参考价值。

       


2018年1月11日,今日头条在总部举办了一场推荐算法交流会,资深算法架构师、中国科学技术大学计算机博士曹欢欢给大家做了主题为《让算法公开透明》的分享。一直以来大家对今日头条的算法都很好奇,半个互联网的算法工程师和产品经理都去了,报名人数远远超过了预期,交流会还不得不临时换了场地。

        公开算法,这在业内从没先例!算法是互联网科技公司的生命,一直以来都是严防死守的。为什么今日头条却反其道而行之呢?让我们先回顾一下今年发生的几件相关的事情:

      1.2017年3月20日,今日头条借助机器学习算法发展神速,百度、腾讯、新浪、搜狐、一点资讯等几乎所有的内容资讯平台都感到了威胁,齐齐将枪口对准了今日头条,一度形成围剿光明顶的态势,《杀死今日头条》文章因此诞生。

2.2017年12月29日有媒体称今日头条在尚未获得互联网新闻信息服务资质的情况下,违规转载新闻信息,且“标题党”问题突出,严重干扰了网上传播秩序,违反国家有关互联网法律法规和管理要求。导致的结果就是手机客户端“推荐”“热点”“社会”“图片”“问答”“财经”等6个频道停更24小时。

3.模式遭受围攻诟病后,今日头条创始人张一鸣多次对外强调,公司是技术平台而非媒体公司,在信息推送上以“技术”算法为准。在此之前,有过类似言论的是快播的王欣:“技术本身不可耻,用户点播什么我们不掌握。”今日头条犹如3Q大战期间的腾讯,如临深渊。

4. 2018年1月3日,今日头条一反以往“技术为先”的原则,对外宣布近期将招聘2000名审核编辑,组建庞大的审核团队加大内容审核力度,而且据说未来预计要逐步扩张到1w人。


走笔至此,今日头条在新年伊始举办该场算法公开讨论也便不奇怪了。于公可推动行业算法发展,于私也能消除社会各界对算法的一些误解那么,今日头条引以为傲的算法究竟是怎样的?是否能够解决今日头条所面临的内容违规问题呢?

         曹欢欢表示今日头条旗下几款产品都在沿用同一套大的算法推荐系统,但根据业务不同,每套系统的架构会有所调整:“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。希望这次分享能让更多的人理解算法,并共同参与到算法模型的制定中来,以改善算法,更好的为用户服务,让算法为社会创造更大的价值。”

        

        其次,曹欢欢在现场的PPT里公布了头条使用的五种推荐算法(划重点!划重点!划重点!重要的 事情说三遍):

  1. 传统的协同过滤模型;

  2. 监督学习算法Logistic Regression模型;

  3. 基于深度学习的Factorization Machine;

  4. DNN;

  5. GBDT。

    

    接着还进一步解密了头条影响推荐算法的四类最重要的用户特征:

  1. 相关性特征,就是评估内容的属性和维度与用户是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像FM模型中也有一些隐性匹配,从用户向量与内容向量的核心距离可以得出。

  2. 环境特征,包括地理位置、时间。这些既是bias(基础)特征,也能以此构建一些匹配特征。

  3. 热度特征。包括全局热度、分类热度,主题热度,以及关键词热度等。热度信息在大的推荐系统特别在冷启动的时候非常有效。

  4. 协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史。而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。


       最后,曹欢欢还解答了现场包括今日头条如何实现冷启动,广告和内容该怎样平衡,怎样准确地拓展用户兴趣图谱等切实的工程性问题的疑问

以上是关于让算法的黑盒子打开——今日头条推荐算法大公开的主要内容,如果未能解决你的问题,请参考以下文章

干货今日头条的新闻推荐算法原理

揭秘今日头条推荐算法与系统架构

文章如何实现大量曝光?推荐算法架构师亲自揭秘!

一文详解今日头条抖音的推荐算法原理

资深架构师首次公开揭秘:今日头条推荐算法原理

马思源/姜文琪: 推荐算法规制的他山之石