数据治理(Data Governance)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据治理(Data Governance)相关的知识,希望对你有一定的参考价值。
数据治理(Data Governance)
根据DAMA(国际数据管理协会)的定义,数据治理(Data Governance)是指对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。数据治理是识别、管理和解决几种不同类型数据相关问题的手段,包括数据质量问题、数据命名和定义冲突、数据安全等问题。
数据治理,由元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全等组成。
元数据管理致力于处理技术元数据、业务元数据、管理元数据,通过丰富的元数据分析和检核,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。
统一的数据标准制定和发布等一系列的活动,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理。
实现若干个业务子系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性。
对数据的全生命周期进行管理,按你所想进行自动归档和销毁,从而真正全方位的把控数据。
我们认为,数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。
所以,数据治理强调的是一个过程,是一个从混乱到有序的过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。
具体一点来讲,数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。
所以,数据治理是一个过程,是逐步实现数据价值的过程,也正是因为这个过程特性,我们认为,数据治理是一个持续性的服务,而不是一个有着明确范围的一锤子买卖。
当前,企业变革已经成为企业适应剧烈变化的市场环境、实现长期发展的必经之路。然而,过去为组织带来工作效率提升的烟囱式的孤岛式的业务系统已经成为组织变革重组的阻力,这也是从数据层面打通各个组织单元、实现业务单元快速重组的最根本的需求来源。
并且,在互联网的冲击下,各行各业都在寻求业务模式的创新,实现业务自动化向业务持续优化的转变,以求在竞争中找到一片蓝海。而组织要能实现业务模式的创新,第一步就是对自身的洞察,以及提升组织的运行效率,方能在互联网背景中立于不败之地。
1、经过 30 年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,从而导致数据的种类和数量大增,看似积累了众多的数据资产,实则在需要使用时,困难重重。
2、因为各个业务系统的建设都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。
3、各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致和冲突等质量问题,从而导致数据在应用过程中的无所适从,难以实现数据的深度利用,从而难以实现业务模式创新和经营风险控制。
数据治理本身不是目的,它只是实现组织战略目标的一个手段而已,例如基于需求的智能制造、智慧市场监督管理、融合市民服务、一网通办等。
从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,例如:
- 集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。
- 企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。
数据治理不只是技术问题,更是一个管理问题。例如大家常见的项目管理系统只是一个工具,如何让项目管理工具与项目管理思想相匹配才是项目管理系统实施过程中的最大挑战,也才能发挥最大的效果。数据治理也是同样的道理。
组织信息化建设正从以应用为中心向以数据为中心转变的关键时期,组织也逐步认识到数据的巨大价值,但低质量的数据和复杂的数据应用手段,让数据价值发掘的效果大大降低,甚至,会让组织决策层丧失数字化转型的信心。
那么,如果在项目实施的初期能识别出影响项目实施效果的困难,并找到相应解决办法,就显得异常重要。以下是龙石数据在工作中总结的最常见的数据治理问题:
1、跨组织的沟通协调问题。数据治理是一个组织的全局性项目,需要 IT 部门与业务部门的倾力合作和支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在条件允许的情况下,成立以组织高层牵头的虚拟项目小组,会让数据治理项目事半功倍。
2、投资决策的困难。组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以,导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。面对此类情况,我们的经验是采用“大平台 + 小目标”的实施方案。“大平台”指的是数据治理的支撑平台。“小目标”指的是利用基础支撑平台和一小部分数据实现某一个具体业务目标。“大平台 + 小目标”方案的优势是能够快速实现可评估的工作成效,难点就在于基础支撑平台要能够对未来的综合治理提供足够的支撑能力,避免重头再来。以智慧市场监管为例,全部的数据包含企业法人监管、质量监督检查、食品监管、药品监管、特种设备监管、主题检查和执法等等,实施综合性的数据治理项目,则可以对企业法人实现全维度的分析和预警,而“大平台 + 小目标”的实施方案则可以实现诸如食品药品安全监管这些主题性的建设目标。
3、工作的持续推进。数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。
4、技术选型。前几年,随着大数据的发展,各种名词层出不穷,令人眼花缭乱,例如:数据仓库、ETL、元数据、主数据、血缘追踪、资源目录、结构化非结构化、Hadoop、Spark、联机事务处理(OLTP)、联机分析处理(OLAP)、商业智能(BI),等等。这里面有针对传统数据库的,有针对大数据数据库的,再加上组织对自身数据资产情况没有一个清晰的认识,这也就导致了数据治理的技术选型困难。而当下,基于传统关系型数据库仍然符合绝大多数据企业的业务需求,为避免误解,以下内容主要针对的是传统关系型数据库数据治理的介绍。
从我们龙石数据的实践经验来看,相对于国际组织和国际企业发布的数据治理框架,以下国家标准 GB/T 34960 发布的数据治理框架比较符合我国企业和政府的组织现状,更加全面地和精炼地描述了数据治理的工作内容,包含顶层设计、数据治理环境、数据治理域和数据治理过程。
1) 顶层设计是数据治理实施的基础,是根据据组织当前的业务现状、信息化现状和数据现状,设定组织机构的职权利,并定义符合组织战略目标的数据治理目标和可行的行动路径。
2) 数据治理环境是数据治理成功实施的保障,指的是分析领导层、管理层、执行层等等利益相关方的需求,识别项目支持力量和阻力,制定相关制度以确保项目的顺利推进。
3) 数据治理域是数据治理的相关管理制度,是指制定数据质量、数据安全、数据管理体系等相关标准制度,并基于数据价值目标构建数据共享体系、数据服务体系和数据分析体系。
4) 数据治理过程就是一个 PDCA(plan-do-check-act)的过程,是数据治理的实际落地过程,包含确定数据治理目标,制定数据治理计划,执行业务梳理、设计数据架构、数据采集清洗、存储核心数据、实施元数据管理和血缘追踪,并检查治理结果与治理目标的匹配程度。
http://www.gb688.cn/bzgk/gb/newGbInfo?hcno=F3B2108863A2292F5AF0FA645CEE047F
从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
- 数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
- 数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
- 基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
- 元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
- 血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。
- 质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。
- 商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,比较知名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。
- 数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见,至此银行业金融机构全面数据治理的大幕拉开。而在大洋彼岸,关于Cambridge Analytica滥用Facebook 5000万用户数据的丑闻正闹得沸沸扬扬,并持续发酵。这一切都说明,数据治理已经成了一个极其重要、亟待解决的重大社会问题。
一个科学合理的数据治理规范,是数据安全与价值的制度保障,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的前提条件。本文尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。
在我看来,所谓数据治理,就是对数据资产的治理,属于公司治理的范畴,是对数据资产所有相关方利益的协调与规范。
(1)数据资源资产化;(2)数据确权与合规;以及(3)价值创造与人才培养。
第一、数据资源资产化。数据不等于数据资产,数据就是电子化记录,仅此而已。数据并不天生具备资产属性。资产需要能够给企业带来预期收益。因此,只有满足一系列必要条件的数据资源,才可能成为数据资产。
第二、数据确权与合规。隐私保护问题越来越受重视。所谓隐私保护就是对隐私数据的保护。最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对数据实际控制者的行为严加管束,做到合法合规。
第三、价值创造与人才培养。对价值创造而言,数据治理不应该关注太过具体的业务问题,因为业务形态千变万化,具有极强的不确定性,不可能通过一成不变的规章制度去治理。相反,数据治理应该关注人才团队的建立与培养,这才是价值创造的沃土。只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。
2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见。至此银行业金融机构全面数据治理的大幕拉开。该指引要求银行业金融机构将数据治理纳入公司治理范畴,并根据数据治理情况,评价公司治理水平,甚至与监管评级挂钩。该指引还鼓励银行业金融机构开展制度性探索,并设立专业岗位,为人才团队的培养建设提供了制度保障。
这是一个非常积极而且重要的事件,对数据产业(不仅限于银行业金融机构)的健康发展具有重大意义。它带来两个重要启示。
第一、从产业政策层面,作为银行业金融机构的主管机构,中国银监会对数据治理的重视与推动,必将对数据产业产生重大而且积极的影响。其影响也许不仅仅局限于银行业金融机构,还包括其他数据相关的产业。
第二、从理论层面,该指引的发布,驱动学术界从理论上思考:数据治理的内涵到底是什么?它和公司治理之间的关系到底怎样?数据治理的独特之处何在?需要一个相对统一的理论框架,便于开展理论研究,并形成同产业实践的良好互动。
为此,我尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。更重要的是,希望能够起到抛砖引玉的作用,吸引更多的政府、产业、学术专家,一起来关注这个重大问题。一个科学合理的数据治理规范,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的制度保障。
接下来,将从几个方面进行讨论。第一、银监会的指引里明确指出,数据治理应该纳入公司治理的范畴。为此,需要首先对公司治理有基本的了解。第二、数据作为一种新兴资产,它的治理工作,有哪些独特、重要,且具体的内容?第三、数据资产价值的创造离不开专业的人才。因此,人才团队的建立与培养也至关重要。
中国银监会《银行业金融机构数据治理指引(征求意见稿)》第四条(数据治理总体要求)明确指出:“银行业金融机构应当将数据治理纳入公司治理范畴”。为此,需要先简单了解一下:什么是公司治理(Corporate Governance)?
假设老王开了一个小公司,叫做“老王科技”,专业售卖耗子药。老王科技就一个员工,那就是老王自己。老王既是唯一股东、董事长、CEO,又是市场总监、销售骨干、前台接待,全都是老王一个人干。那么,老王科技的业绩好坏,就看老王自己的经营能力是否够强。无论老王科技的业绩是好还是坏,都只跟老王一个人相关,跟其他人无关。
因此,这是一个纯粹的经营问题,跟公司治理无关。为什么?因为:“老王科技”这个资产(即:公司)的所有者(老王,唯一股东兼董事长),以及实际经营者(还是老王自己,兼任CEO、市场总监、销售骨干、前台接待等众多职务),是100%同一个人。因此,实际经营者(老王,CEO、市场总监、销售骨干、兼前台接待),在他的能力范围内,一定会100%尽全力为股东(还是老王,唯一股东兼董事长)努力奋斗,不需要任何制度鞭策。如果经营不善,老王自己负全责,没法怨天尤人。
但是,老王科技发展的太好了,以至于必须开分店!一不小心,在北京城里开了100家分店,请问:老王自己一个人还忙得过来吗?显然忙不过来了。怎么办?老王必须为每个分店,请店长,请员工。为了协调这100家分店的市场行为,还在总店聘请了市场总监。为了协调100家分店的货物配送问题,还在总店安排了物流主管。这么多员工,他们的招聘、离职、五险一金,也是一个不小的事情,迫于无奈,老王还聘请了一个HRD。好家伙,这么七七八八算下来,总店的员工人数也不少了,太操心了。搞得老王连搓麻将、玩德扑、打电游的时间都没了。这可严重影响了老王的生活质量。于是,老王又重金聘请了一个海归MBA来当CEO(Michael)。
不知不觉中,老王科技的员工数目,已经从原来老王1人,变成300人了。这时候,新的问题就来了。作为“老王科技”的唯一股东,老王心心念念希望老王科技的利益(也就是自己的股东利益)越来越好。但是,员工的心思可不一样。无论是高管CEO、中层各种总监、还是最下面的店长店员,每个人的利益跟老王都有交集(毕竟老王科技做得好,大家才有工资奖金),但是又不尽相同(毕竟老王科技业绩,跟员工个人利益,并不是完全确定性关系)。于是,每个员工,自觉或者不自觉地,都有一点自己的小心眼儿。这不是一个好现象,也不是一个坏现象,这是一个太正常不过的中性现象。对于这个现象,如果利用得当,可以成为公司发展的巨大动力。但是,如果治理失控,就会极大地影响公司业绩,影响公司所有相关方的权益。这时候,公司治理就变得极其重要了。
由此可见,所谓公司治理,在一个相对狭义的层面,就是要解决公司实践中,资产所有者(股东老王)和实际经营者(CEO Michael,中层大张,店长小赵,N多店员)的分离所产生的矛盾。如果没有良好的治理制度保障,公司资产(例如:老王科技的分店)的实际经营者(店长+店员),极有可能做出伤害公司利益的行为(例如:利用老王科技的分店,私下兜售老李科技的产品)。这就是公司治理中经典的委托代理问题,也是现代金融学研究的核心内容之一。
如果老王科技有融资上市计划,公司治理问题会变得更加严重。以前老王科技就老王一个股东,他对公司中所有事物有绝对的生杀大权。但是,现在为了企业高速发展,老王科技经历了A到Z无穷轮融资,最后终于在海外上市。等到上市的那一天,老王在公司股权中的占比,已经不到10%,而其他的股权散落在各个投资机构,甚至散户手中。尽管通过双层的股权结构设置,老王仍然拥有在董事会的绝对控制权。但是,此时老王的影响力,肯定不如以前了。以CEO Michael为首的管理团队(公司资产的实际经营者),具备了很强的挑战老王的能力,散户就更别提了。管理团队具备了更大的用公司资产为自己谋私利的可能。此时,如果没有科学合理的制度设计,老王科技的前途堪忧。
目前为止,老王科技的治理问题只牵涉到两方利益,即:股东方(资产所有者)利益与管理方(实际经营者)利益。如果有第三方介入,老王科技的治理问题会变得更加复杂。例如,老王科技的快速发展,带来一个严重后果:环境污染。为了生产剧毒耗子药,老王科技的生产制造过程,不可避免的涉及到大量有毒有害的化学原料以及废弃物,对环境产生了很大的伤害。当地政府、居民,以及环保主义者都对此表示强烈的不满。为了解决该问题,老王科技同当地政府、居民,以及环保主义者,建立了良好的沟通机制,积极采纳最新的低排放生产工艺,找到了各方都满意的解决方法。此时,老王科技协调规范的不仅仅是股东、管理层之间的利益,还包括外部第三方(当地政府、居民、环保主义者)。从一个更加广义的范畴看,这也可以被看作是公司治理的内容。
因此,从一个更加广义的角度看,公司治理就是要对公司(作为一个资产)的所有相关者(不仅仅局限于股东和管理层,还包括第三方)利益的协调与规范。
回到数据治理问题的讨论,请问:数据治理,治理什么?治理的对象是什么?是数据吗?答:不是。
数据作为一种电子化记录,无处不在,大多数情况下都无关企业重大利益,并没有治理的必要。因此,数据治理的对象必须是重要的数据资源,是关乎企业重大商业利益的数据资源。这样的数据资源可以称其为“数据资产”。关于数据资产更加详细的讨论将在下一节进行。这里不难获得一个结论:所谓数据治理,不是对数据的治理,是对能够为企业带来商业利益的数据资产的治理。数据资产显然是公司资产的一部分。
因此,无论是从狭义的角度还是广义的角度看,数据治理应该属于公司治理的范畴。所有关于公司治理的典型问题,都可能在数据资产上出现。公司资产会出现所有者与实际经营者分离的问题,数据资产更会出现。数据资产的所有者,跟实际使用经营者,几乎从来就不是同一个人,或者至少极具争议。公司资产的实际经营者(例如CEO),有可能用公司资产谋取私利;数据资产的实际控制者(例如数据库管理员),更有便捷的条件,通过倒卖数据,谋取私利。公司的利益有可能同外部第三方(例如环保主义者)发生冲突;这个问题对数据资产而言更加突出。
以电商平台为例,除了股东、管理层以外,相关数据资产有一个天生的第三方——消费者。股东管理层对数据的利益诉求,极容易同消费者这个第三方冲突。作为冲突的焦点,数据确权与隐私保护首当其冲。
总结一下,所谓“数据治理”,不是对“数据”的治理,而是对“数据资产”的治理,是对数据资产所有相关方利益的协调与规范。
数据治理是关于数据资产的治理,那么数据资产又是什么?行业中有一个广泛流传的误解,很多朋友不假思索地认为:“数据就是资产!” 错!数据不等于数据资产。
所谓数据就是电子化记录,电子化记录就是数据。但并不是任何数据都可以被称为资产,因为数据资产的要求更高,只有数据具备了资产属性后,才可以被称为数据资产。那么,基础会计学中,对资产的定义是什么?其对数据资产的定义能有什么启发?
新《企业会计准则-基本准则》第20条规定:“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”如果照猫画虎修改一下,不难获得一个关于数据资产的定义:“数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源。”由此可见,数据要成为数据资产,至少要满足3个核心必要条件:(1)数据资产应该是企业过去的交易或者事项形成的;(2)企业拥有或者控制;(3)预期会给企业带来经济利益。
其中(1)似乎不是问题。企业数据资源的获得无外乎两种途径。第一种途径,是自己过去正常经营的一个自然积累与产出,或者由于业务实施的必要而被实际控制。例如,对电商网站而言,网络浏览日志数据、消费购买数据自然而然就产生了;为了给消费者快递商品,消费者的姓名、银行卡、手机号、地址等数据也被记录了下来,被电商网站实际控制。第二种途径,就是资源互换。可能是A企业通过货币(或者等价物)购买了B企业的数据,也可能是A企业的数据同B企业的数据做了等价置换。假设相关操作合法合规,那么这种途径获得的数据资源也符合数据资产定义的条件(1)。
但是,(2)似乎是一个很大的问题。根据核心条件(2),数据要成为资产,要么被企业合法合规地拥有,要么被企业合法合规地控制。对于普通资产而言,这似乎不是一个很大的问题,因为普通资产的产权非常明晰。但是对数据资产而言,产权非常不容易界定。还是以电商网站为例,网站积攒大量的关于消费者的消费记录数据。这些数据的实际控制者是电商网站,但是其合法的产权方是谁?这不是一个容易回答的问题。对于该数据的生产,电商网站提供了软硬件设备,似乎贡献巨大。但是,这些数据的内容,却由消费者生产,并且关乎消费者隐私,消费者也有无可争议的权益。这其中的矛盾冲突,如何通过科学合理的制度予以规范协调,这是一个极具挑战,需要大智慧的问题。关于数据确权与合规这个重要问题,后面一节还会进一步讨论。
最后,(3)似乎也不是一个容易解决的问题。数据要成为资产,就需要能够给企业带来可预期的经济收益,否则就不是资产。因此,那些被大量存储,产生可观存储成本,但是却不能给企业带来可预期经济收益的数据资源,也不能被称为数据资产。只有那些能够给企业带来可预期经济收益的数据资源,才能够被称为数据资产。什么样的数据资源才能够产生可预期的经济收益?这需要一些必要条件。
第一、记录电子化。电子化的记录才是数据,否则连数据都不算,怎么能产生可预期的经济收益,又怎么能从数据资源变成数据资产?请不要忽视记录电子化这个卑微的工作,其意义极其重大。因为相关行业中,大量的历史记录都没有被电子化,而这些记录中蕴藏着海量的宝贵信息。
最典型的例子莫过于:病历!虽然现在的医院大量采用电子化病历,但是过去几十年里可都采用的是纸质病历。这些病历上写满了只有医生护士才看得懂的天书。这样的纸质病历,一个大型三甲医院,就有上亿份之多!里面蕴藏了无比珍贵的临床数据。不把这些记录电子化,就成不了数据,支撑不了科学研究,支撑不了规模化应用,产生不了可预期的经济价值,因此不是数据资产。
第二、数据聚合。统一的数据聚合平台,是数据资产化的优质条件。如果没有统一的数据聚合平台,每次不同的业务需求,都会产生不一样的数据提取、整合、清理需求。这些需求常常需要和不同的业务部门沟通,在不同的数据库上直接操作。
这需要高昂的沟通成本,以及不平凡的数据库操作技能,而这些技能往往是数据需求方(例如:业务方)不具备的。最后只能拜托技术团队去完成,而技术团队的时间成本也非常高昂。过高的数据提取整理成本,会抵消数据资源原本应该产生的经济收益,成为数据资源资产化的巨大障碍。而要消除该障碍,一个统一规范的数据聚合平台不可或缺。
第三、质量保证。数据分析中有一句名言,叫做:“垃圾进去,垃圾出来 (Garbage in, garbage out)”。它讲的道理是,如果数据本身质量很差,如同垃圾一样,还用做模型输入,那么无论模型有多高大上,最后出来的结果仍然是垃圾,没有任何价值。可见数据质量的重要性。数据质量主要表现在以下几个方面:(1)真实性。虚假数据是没有任何意义的;真实的数据,常常分散在各个职能部门中。
如果没有合理且强力的制度保障,正常情况下,没有任何人愿意主动贡献自己的真实数据,他的利益何在?因此,合理而且强力的制度设计非常重要。(2)完整性。该收集整齐的数据要尽量收集整齐。一套数据对被记录对象的所有相关指标的完整程度越高,相关模型的预测精度就会越好,数据资源就越有价值。相反,过多的缺失数据会极大地伤害相关模型的预测精度,进而限制数据的应用能力。(3)精准性。有三层含义:第一层含义是数据的逻辑要合理。例如:对于大气数据而言,由于PM2.5是PM10的一部分,因此,相关数据必须满足PM10的数值要大于PM2.5,否则就不合逻辑,是错误数据。第二层含义是数据的细致程度。同样的数据,不同的采集方式,不同的存储方式,带来的数据细致程度是不一样的。以车联网数据为例,数据采集应该细致到每秒?还是每15秒?在不考虑成本的情况下,显然越细致越好。第三层含义是数据的精确程度。以定位数据为例,应该精确到10米以内?还是1米以内?在不考虑成本的情况下,显然数据精度越高,对于业务的支撑能力越强。
随着社会的发展,隐私保护问题越来越受重视。所谓隐私保护就是要保护关乎个体隐私的数据。个人隐私数据之所以应该受到保护,就是因为这些数据的滥用有可能对个人造成巨大的财产甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护。一个最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对隐私数据实际控制者的行为要严加管束,做到合法合规。要避免,因为数据资产的错误使用,给任何相关方造成不必要的损失。因此,相关的数据治理规则非常重要,主要关注几个方面。
第一、数据确权。数据一旦成为资产,就一定有产权方,或者实际控制人,可以把他们统称为主人。请问:数据资产的主人到底是谁?
如同实物资产一样,如果一不小心,错用了别人的资产,可能会产生严重的法律后果。对于实物资产,确权似乎不是一个问题。因为,无论是 以上是关于数据治理(Data Governance)的主要内容,如果未能解决你的问题,请参考以下文章