基于快手直播场景聊一聊数据质量体系

Posted 学而知之@

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于快手直播场景聊一聊数据质量体系相关的知识,希望对你有一定的参考价值。

    点击上方蓝字关注我们,及时获取最新咨询!!点关注,不迷路~   

摘要:今天分享的内容是基于快手直播场景谈一谈数据质量体系       

分享时间:2021年6月10号

内容分享:杨老师

归纳整理:皮卡丘

主要内容:

    1、数据质量概述

    2、数据质量的维度

    3、数据质量产生的原因

    4、快手数据质量理念

    5、快手数据质量保障体系

    6、快手数据质量体系在直播的实践

什么是数据质量

数据无处不在。随着互联网的高速发展,数据也成指数级的增长着。但是,如果没有好的数据,想做的事就困难了。无论是推出新产品或新服务,还是简单地响应竞争对手的举动,做出明智、及时的商业决策,几乎完全取决于手头数据的质量。

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。

人们试图用这样的术语来描述数据质量完全, 准确, 可接近,和一致等等。虽然每个词都描述了数据质量的一个特定元素,但更大的数据质量概念实际上是关于该数据是否达到了您想要用于的目的。

但是,数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

数据质量的维度

说到维度,做数仓的小伙伴肯定不陌生。凡事都有维度,维度是反应事物的角度。正所谓维度越丰富,形象越饱满。

数据质量也有维度,主要体现在以下几个方面:

1、准确性(Accuracy):

是指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性由数据的采集方法决定的。

2、精准性(Precision):

是指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。精确性与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。

3、真实性(Rightness):

数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,反之则真实性难以保证。

4、及时性(In-Time):

是指数据能否在需要的时候得到保证,数据的及时性与企业数据处理的速度和效率有直接的关系,为提高效率,而采用各种技术手段进行处理。

5、即时性(Immediacy):

是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。

6、完整性(Integrity):

是指从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例,数据的完整性体现着这个公司对数据的重视程度。

7、全面性(overall):

数据的全面性和完整性不同,完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。

8、关联性(Relevance):

是指各个数据集之间的关联关系,如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛。

数据质量产生的原因

凡事都有因果,数据质量出现问题,也有其产生的原因,是可以追溯根源的。数据质量产生的根本原因,总结如下几点:

源系统
源系统数据结构发生变更

源系统业务流程变更

源系统数据录入错误或延迟

源系统随时间的推移,数据发生了演变
ETL需求不明确或者没有满足客户需求

ETL映射规则错误

ETL程序、脚本错误

数据没有及时到达或者依赖关系错误
业务需求
随时间的推移,业务需求发生了变化

源系统和业务需求发生冲突

根据以上这几点原因,采用点对点“打击”的方式,把控好数据质量也不是不可能实现的世纪性难题。

快手数据质量理念

1、数据质量是生命线:

2、数据质量保证目标:

总结:快手的数据质量理念虽然简短,但分量很重。当将其作为使命为之努力时,结果必然会令人满意。

快手数据质量保障体系

1、完善:

2、准确:

3、一致:

4、及时:

数据质量体系在直播的实践

1、快手之夜数据挑战:

2、分阶段保障:

3.1、事前-双链路设计

3.2、事前-压力测试

3.3、事前-分级保障

3.4、事前-应急预案准备

4.、事中-直播进行

5、事后复盘

写在最后

关于数据质量一直是业界持续关注的话题,也是企业下功课很多的一块内容。本文基于快手的数据质量体系在直播场景中的实践,粗浅的和大家聊了聊数据质量,希望各位仁人志士一起讨论。本文快手相关的内容摘自快手大数据专场上的分享。让我们站在巨人的肩膀上,眺望更广阔的的天地。

往期回顾

作业帮实时数仓架构中的Doris是如何发挥神威的

2020.06.07

基于阿里OneData思想,深入剖析数据仓库方法论

2020.06.02

ClickHouse如何在字节跳动内部演化的,详解

2020.05.28

一文搞定ClickHouse在苏宁用户画像场景的实践

2020.05.26

暗中观察

默默关注

以上是关于基于快手直播场景聊一聊数据质量体系的主要内容,如果未能解决你的问题,请参考以下文章

基于快手直播场景聊一聊数据质量体系

快手如何是从模型规范开始进行数据治理的,安排

快手如何是从模型规范开始进行数据治理的,安排

Flink 在快手实时多维分析场景的应用

从快手的指标规范出发聊一聊如何管理杂乱的数据指标

从快手的指标规范出发聊一聊如何管理杂乱的数据指标