数据仓库之创作者分层模型服务构建

Posted 2021-04-24 一个数据人的自留地

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据仓库之创作者分层模型服务构建相关的知识，希望对你有一定的参考价值。

是新朋友吗？记得先点蓝字关注我哦～

关注免费获取资料

1、可免费领取数据相关的面试题+面试攻略。

2、可免费领取<中台>相关的资料；

3、进交流群，认识更多的数据小伙伴。

前言

打造创作者分级运营，帮助创作者成长的重要前提条件。

通过对数据层面的汇总和计算，可以支撑到后续的若干应用：

1. 运营在创作者 DB 管理工具进行查询操作；

2. 不同层级创作者的变化情况分析，以帮助到分层模型的迭代；

3. 不同层级创作者的实际表现，可以支撑产品和业务业务对实际情况的判断；

目标

创作者分层涉及到的数据散落在各处，主要的信息散布点有：

1. 创作者后台（关注创作者内容）——Ops标注的数据；

2. BE后台（关注对创作者服务）——创作者的粉丝总量/第一次登录时间/最后一次登录时间等；

3. 内容库（提供创作者历史发布的相关信息）——创作者发布的视频数量/第一次发布/最后一次发布等；

4. 大数据——创作者最近7天增粉数/其他行为类数据

所以，为了完成创作者分层模型的构建和支撑后续的业务应用，需要综合各方数据，打造合理的数据生产方式。

一、数据流程方案

1.数据流程注意事项：

①数据拉取时间范围：T+1；

当大数据从业务库中拉取数据时，需要有时间标识，如：modification_time (修改时间) 字段，拉取规则：：modification_time < T+1；

②在避免影响线上业务情况下拉取数据，建议业务方提供「备用库」作为数据拉取方案中数据来源；

2. 大数据负责汇集、清洗、转换、计算数据

①数据来源：

内容库、关注服务、ops上传等数据来源；

②数据处理：

数据进行汇集、清洗、轻度聚合、分层计算；

③数据流向：

写入提供的创作者业务库中；

二、数据接入

以“关注创作者表”为例：

1. 接入方式——拉链表

①采取拉链表原因：数据量比较大，每次只修改表中部分字段，如：deleted，updated 字段，如果每次保留全量数据，则其中很多不变的信息双倍存在，对存储是极大的浪费。

②接入方式：首次全量接入到 tmp_wechat

_creator_follow_detail_di 表中，再到 ods_wechat_creator_follow_hi，中间过程 SQL 如下：（涉及语法下节介绍）

INSERT OVERWRITE TABLE tmp_zapee_creator_follow_detail_di PARTITION(dt = '2020-03-04')SELECT id ,userId AS user_id ,targetUserId AS target_user_id ,app ,(CASE WHEN deleted = 1 then 1 WHEN deleted = 0 then 0 else -1 end) deleted ,creation ,modificationfrom Follow.FollowWHERE modification < '2020-03-05 00:00:00'MSCK REPAIR TABLE prod_creator.tmp_zapee_creator_follow_detail_di;INSERT OVERWRITE TABLE {0}_creator.ods_zapee_creator_follow_hiSELECT id ,user_id ,target_user_id ,app ,deleted ,creation ,modification ,'{1}' AS start_date ,'9999-12-31' AS end_datefrom prod_creator.tmp_zapee_creator_follow_detail_diWHERE dt = '2020-03-04'