关于数据管理的一些思考

Posted CloudQuery

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于数据管理的一些思考相关的知识,希望对你有一定的参考价值。

伴随着互联网、5G、大数据的蓬勃发展,数据俨然已成为企业不可或缺的重要资产,数据管理的意义愈发突出,但想要管理好数据却并不是一件容易事,为什么呢?

首先看一下数据的定义:
数据是指对客观事件进行记录并可鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。——百度百科

数据是通过观测得到的数字型的特征或信息。——维基百科

结合实际情况通俗来讲:数据是企业发展或商业行为中获取、用于企业的发展壮大,带来丰富物质收益的同时,也会帮助企业不断进步的虚拟资源。

其次,需明确数据管理的定义:
数据管理,即对数据资源的管理。按照 DAMA 的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作。——维基百科

利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。——百度百科

相比百科百度中偏向计算机领域的定义,维基百科更符合现代企业数据管理的定义。

结合实际通俗来讲,就是企业发展过程中数据量不断攀升,数据在帮助企业发展时,也带来诸多问题,因此,企业需要有一套整体完备的理念、程序、架构管理数据,让数据更好的为企业所用。

为什么要管理数据?

企业管理数据,与我们普通人理财很相似。但一大重要不同点是:企业管理数据是希望数据能够更高效且低成本运作以带来商业收益。但正如理财有风险一样,没想清楚为什么要管理数据前,不要直接上马一个数据管理项目,也不要去采购数据管理产品,首先需要搞清楚,数据管理的意义在哪里,能为企业带来什么价值?

管理数据的本质

企业希望通过管理数据来低成本高效的实现特定目的。这句话有三个重要关键词,实现特定目的、低成本高效、通过管理数据的方式。我们逐一分析:首先管理数据是专业化的工作,因此人才是第一要素,正如战场上不能要求飞行员去拼刺刀一样;其次,低成本高效,即要明确各数据实际价值,排列数据优先级,及时淘汰无用数据;最后,实现特定目的,管理数据务必要有自己的目的,坚决不要为了管理而管理。

那么,怎么来管理数据呢?

答案:用数据来管理数据。管理数据的前提是能把要做的事情量化,事情量化后也成了数据,并且我们需要用数据进行工作决策和管理。其次,还需要有一套行之有效的管理方法。

有了目的和方法后,就要开始制定数据规范

制定数据管理规范时比较难,需围绕目标边制定边实践,没有最好的制度,只有最适合自己的。

下面做一个衡量数据管理能力的评估题目,一要量化,二要靠机器回答,三要半小时内回答。

  • 能否直接给出每张表对于数据变现的价值?或假如这张表不出,会带来多少潜在损失?(虚拟指标都可以)。
  • 能否直接给出每张表的运行质量报告?能否根据优先级给出运行优化的具体建议?
  • 哪些表能直接下线?

你会发现要回答这些问题,不仅是建个数据管理系统那么简单,需要制定相应的规范和标准。

如果需要知道每张表对于数据变现的价值,必须有应用跟表的关系,因此,开发上线的时候必须制定规范,起码要提交映射关系,同时为了防止两张皮现象,必须依赖自动化的系统。

如果需要知道每张表的数据质量报告,必须制定相关的质量指标,并能够及时预警和处理,这个需要一套数据质量监控制度。

如果需要确定哪些表能直接下线,必须制定一套数据表生命周期管理制度,需要有表的比如血缘和影响分析,否则怎么知道有多大影响?

如果要让运维人员知道这些表谁是谁,则必须有好的数据字典,明确表命名规范和口径定义,以降低管理成本。

如果….

你看,所有的数据管理规章制度其实都是为了确保目的达成,由此会延伸出一个庞大的数据管理体系,但还是要懂得能抓住本质。因为一开始,不可能想到这么多,能做这么多,需从本源开始思考从何入手。

说完制度,接下来就要提到数据管理工具。

工欲善其事必先利其器。当前数据量愈发庞大,靠人肉难以保证稳定且风险性巨大,因此数据管理工具在现代企业中越发重要。

之前微盟程序员删库跑路事件传遍全网,几行代码,让上市公司微盟的市值一天内蒸发超 10 亿,数百万用户受影响,直接间接的损失难以计量。这个“段子”一样的事件,无疑给各大公司敲响警钟,尤其是数据管理并不规范的中小公司,如果这样的删库跑路事件发生,产生的效果将无疑是毁灭性的。

可以看出,想要保证企业数据的稳定运行,数据的管控和审计无疑是非常重要的,对于数据管理者来讲尤其如此。企业中对不同层级的开发人员需制定详细的数据操作权限,哪些允许,哪些不允许,应明确指出。而且用户在权限内对数据做了哪些事情,尤其是高危事件,应要做到详细的审计分析,这两点笔者认为是最必不可少的。

另外,数据管理的可视化也非常重要,有些公司的 ETL 任务多达成百上千个,能快速简单的判断任务是否运行成功也很重要,它将直接决定到运维的工作量和难易程度。

当前数据管理的产品并不少,但要想面对复杂多变的企业环境,不同的数据库情况,不同用户的操作习惯等,往往能达到的效果有限。

怎么才能算是好的数据管理工具?

首先,一定是能够融入到企业的生产环境中去,这是大前提。

其次,当前企业要用到的数据库种类越来越多,如 NOSQL、NEWSQL、国产数据库等,所以要在一个平台内支持常用的各类数据库,而不需要打开一大堆工具。

另外,当前云和 Web 的应用越发广泛,对于企业团队而言,如果能在云端部署好一套系统,不用每个人再去下载配置,统一部署,统一使用,增强团队之间的协作,那将会大大节省团队时间,提高效率。而且,数据操作体验和效率也不可忽视,平常工作中 DBA 和开发常用到的功能应是标配。

最后便是最重要的数据安全。对于 DBA 而言,这里最基本的两项刚需功能可能是:权限管控和审计。

数据管理的一些思考

数据管理是个系统性的工程,涉及到企业很多流程的再造和新机制的建立,比如规范开发流程等,影响也是全方面的,也需要赢得管理者的支持,不然也会举步维艰。

另外,数据管理是个专业化的工作,要有专业化的人全力来对应,其他例如工具等都是辅助,离开专业的人才,往往也不会达到很好的效果。

总结

未来时代,数据将会愈发庞大,数据管理工作也将更加复杂困难,这既是给数据从业者的挑战,也是时代赋予的机会。

基于 Web 的统一数据管控工具 CloudQuery—— https://cloudquery.club/

以上是关于关于数据管理的一些思考的主要内容,如果未能解决你的问题,请参考以下文章

关于Cookie的一些思考和理解

关于数据库‘状态’字段设计的思考与实践

关于SQL Server 数据库归档的一些思考和改进

关于线程任务的一些思考

关于数据库“状态”字段设计的思考与实践

关于递归的一些思考