微信黑科技-推荐系统,一文带你看懂为什么微信推荐这么快?

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了微信黑科技-推荐系统,一文带你看懂为什么微信推荐这么快?相关的知识,希望对你有一定的参考价值。

前言

随着推荐系统的强势发展,特征检索的使用场景越来越广泛。而作为基础组件,除了要拥有支持亿级索引的基本素养外,在功能特性上也需要不断迎合业务的发展。

01 背景

在一些推荐系统、图片检索、文章去重等场景中,对基于特征数据进行 k 近邻检索有着广泛的需求:

  • 支持亿级索引的检索,同时要求非常高的检索性能;

  • 支持索引的批量实时更新;

  • 支持多模型、多版本以灵活开展 ABTest 实验;

  • 支持过滤器、过期删除以排除不符合特定条件的数据。

在经过调研后,发现已有的解决方案存在以下问题:

  • 在学术界中,已经存在有成熟并开源的 ANN 搜索库,然而这些搜索库仅仅是作为单机引擎存在,而不能作为高性能、可依赖、可拓展的分布式组件为推荐系统提供服务;

  • 在业界中,大多数的组件都是基于 ANN 搜索库做一层简单的封装,在可拓展、高可用上的表现达不到在线系统的要求;而对于少数在实现上已经较为成熟的分布式检索系统,在功能上却难以做到紧跟业务发展;

  • 而在更新机制上,很多组件都是要么只支持离线更新、要么只支持在线接口更新,无法满足在微信侧小至秒级千数量、大至小时级亿数量的索引更新需求,因此需要可以兼顾近实时更新及离线大批量更新的分布式系统。

基于上述的这些要求以及业内组件的限制,我们借助 WFS 和 Chubby 设计并实现了 SimSvr,它是一个高性能、功能丰富的特征检索组件,具有以下特点:

以上是关于微信黑科技-推荐系统,一文带你看懂为什么微信推荐这么快?的主要内容,如果未能解决你的问题,请参考以下文章

一文带你看懂大数据平台分布式文件系统HDFS

一文带你看懂PaddleHub

一文带你看懂ATM的应用权限访问控制能力

一文带你看懂ATM的应用权限访问控制能力

一文带你看懂分布式软总线在家庭场景的应用

分类VS标签,一文带你看懂数据中台为什么要建标签体系?