推荐算法里面数据

Posted 2021-04-29 数据模型浅谈

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了推荐算法里面数据相关的知识，希望对你有一定的参考价值。

推荐进化，可以分四个时期，第一个时期，主要的方法是，用户在前台搜索什么，然后服务去查表，查到该给用户推荐的内容推荐到前台。本质上是将用户的行为矩阵用spark矩阵分解，但是精度尚待提高。这个时代存在的问题比较多，个性化程度低，召回维度单一，复用率低，缓存效率低等。

在这个时期，数据指标记录：搜索内容，关键词维度下匹配信息ID，用户点击数据，单次获取信息位置（每条流量均记录），页码，用户停留时长，单贴用户停留时长，用户连续搜索次数（在十分钟内搜索多次），广告贴曝光量以及位置，广告贴点击以及转化效果，每日总流量，

在记录的基础上，还可以衍生计算：用户分析，广告贴质量，关键词热度，推荐匹配质量，市场流量分析，

第二个时期，系统进行了颗粒度的提成，从用户——类别变成了从用户——单品，同时引入了更多的维度及用户画像和商品画像，还完善了相关的托底数据。

这个节点的改进，首先就是细粒度的个性化提升，从类别级精细度做到了单品级的精细度；其次使用了CF+画像增加了召回维度，通过行为数据和购买数据可以进行计算并且还有一定的调整空间；最后，增强了复用性，这里就是一个非常重要的一块，就是将用户——商品拆解成了，用户——X，X——商品。举个例子，一个词到一篇文章，拆解成，一个词到一个topic，再从一个topic到一篇文章。

在这个时期，数据要引入用户画像数据，以及中间节点对应的两端数据，这个时期的数据中间节点和两端数据的对应是重点，在检测推荐效果的同时，增加检测用户——X的对应的准确性，以及X——商品的匹配的相关性。

第三个时期，这个时期的重点是实时推荐系统，核心就是实时数据，主要包含两部分的实时化，离线挖掘的实时化和用户兴趣的实时化，也就是说数据得到了实时化，在有效性上得到了保证，这个阶段转化率得到了8-9成的转化。实时服务这块的逻辑：发送请求，解析，召回，排序，业务处理，取数据。

这个时期数据切时区去存储数据，以及用户的兴趣数据，兴趣是完全具有实时性的指标，一定得时期以及环境下，用户的兴趣不同，比如说，一个用户新到一个地方，他对周边的环境不熟悉的时候，可能会经常去搜索跟生活类相关的信息，过段时间熟悉了，可能就不会关注这类信息，兴趣的实时更新在系统自动推荐上是特别有必要的。

最后一个阶段是机器学习的时代，首先底层会有一个机器学习的pipeline,这一层建好之后就会形成一个机器学习的数据仓库，生成特征性指标。在机器学习的时候，要有明确可量化的目标，模型也是，要有明确的优化点。其实就是在解决一些排序的问题，高点击率的帖子就应该被优先推荐么？高购买率的商品就应该被推荐么？这就完全说明了，不能只做排序，机器学习还要做召回模型和用户兴趣模型。机器学习利用学习后生成的数据仓库，优化特征性指标，优化模型系统。

最好的一种状态就是，拥有机器学习系统，同时实现模型实时更新，特征实时获取，排序实时计算。

机器学习整理到这里，对于用户画像这件事情不得不简单的整理一下。

画像的可以分四步走，首先做item链接，一边是用户，一边是iteam，在信息类平台上，用户的所有信息几乎都是有用的，性别，行业，地域，年龄，浏览信息，链接数据等。就目前淘宝的一个现状，我想买一个杯子，就搜索了杯子，查看了很多杯子，但是在我购买了之后，还是在不断的推荐我看杯子，这个真的就不合理了（买完了之后又推荐了一个看起来又便宜又好看的杯子，一点也不开心），这就是在最后一个链接数据上的检测出了问题，应该对我标记“已购买杯子”，至少短期内不应该再推荐杯子了。

第二步细致，我们目前在存储信息的时候，多按品类进行存储，一般会细分到3级品类，也就是说比如说用户感兴趣的一级品类是3C类产品，远远不够，所以要细分3级品类，到用户更喜欢什么3C类产品，比如单反，电脑，手机了。

第三步，要知道用户对于品牌的要求，在这一块，如果单纯的绑定商品信息是完全不够的，这个时候就要去寻找用户的历史行为数据作为偏好参考。

第四步就是预测用户兴趣，这个理解起来就简单一点了，比如用户今天在这个频道租了房，那么是不是马上可以使用搬家服务或者家政服务，这就是预测，现在各大平台都在这里发力。

以上是关于推荐算法里面数据的主要内容，如果未能解决你的问题，请参考以下文章

大数据技术之_24_电影推荐系统项目_04_推荐系统算法详解