金融数据治理实践与思考
Posted 学而知之@
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了金融数据治理实践与思考相关的知识,希望对你有一定的参考价值。
导读:结合当前业界数据治理的现状、背景、框架,我们可能希望了解一个从 0~1的数据治理架构体系怎么做。也有朋友会有疑问:数据治理的管理、域间组合和协同,他们是什么样的一个关系,该怎么样去开展?另外,在这几年的金融行业的数据治理过程中,有哪些具体的实践?为了帮助大家解决这些困扰,本文将对金融数据治理的实践与思考,做一个梳理和总结。万字长文和大家一起学习、讨论金融行业的数据治理背景和架构体系,耐心读完后相信会对大家有巨大的收获。
今天的介绍主要分为 4 个部分:
金融数据治理背景
数据治理架构体系
数据治理管理域间组合与协同
数据治理新实践和思考
01
金融数据治理背景
首先和大家分享下金融数据治理的背景。
金融行业在整个数据治理领域里,跟政企一样,其数据治理比较领先。原因在于两个必不可少的因素:外驱和内驱。
1. 外驱
第一个因素就是外驱,外部是如何要求的。
首先在国家层面:涉及数据安全、个人信息保护法、网络安全。除此之外,整个国家把它提升到数据安全和数据流动的高度,包括现在的数据交易所,我们可以看到越来越多的数据治理相关方在数据使用、数据价值的参与,那国家也希望在数据安全得到保护的情况下,尽可能地释放数据的流通。另外是行业层面,在上述外部环境之下,银行业和证券业有自己独特的一些特性。
在银行业而言,近期它有三个比较大的变化,或者叫衍生路线:
一是从纵向转为横向的拓展:在数据治理的领域,从一个专业的领域,不断地上升到对体系化的要求。
二是在业务领域的范围的拓宽:从原来的风险领域,不断扩展到对业务领域的要求。
三是罚单展现重要性。通过这些罚单可以看到:数据治理是监管工作的基础。
那么对于证券业而言,它会聚焦在两个点:
全面风险管理。
2021年发布的《证券期货业科技发展“十四五”规划》:它明确将数据治理纳入了八大重点任务之一。
可以看到,这里不再是一个单方面的跟其他金融科技发展不相关的事情,而是一个十分重要的任务底座。
2. 内驱
对于内部而言,有什么样的驱动力去做数据治理呢?本文主要分以下三点来阐述。
数字化转型基础
业务发展需要
数据疑点和痛点
(1)数字化转型基础
在十四五规划提出来之后,数据要素站上了这个历史的舞台。
(2)业务发展需要
对于企业内部而言,也有业务发展的需求:
一是提升客户的这个体验度和满意度,比如说打通堵点,提前发掘客户的一些需求。
二是在风险的预警和识别上,包括贯穿整个业务和客户全生命周期的风险管理。
三是在效益上,希望通过数据和智能化来辅助经营决策。最终的目标是希望通过数字,把数据治理作为数字化转型的基础去构建。
(3)数据的难点和痛点
我们所面对的数据相关的一些难点和痛点也驱动着我们去做数据治理,主要包括:
一是数据孤岛,它阻碍了数据的内部共享。
二是数据质量难以去辅佐和支撑业务的发展。
三是如何平衡数据的流通和数据的安全,如何去落地。
四是如何多方协同治理。现在很多金融企业在做数据治理,把它当作一次性的工作和数据资产,难以持续化的运营。现状是金融行业数据治理需要多方参与,每一个企业都需要进行数字化转型,每个企业的数字化转型要求各不相同,如何把他们共同协同起来,共同建设数据治理的基础,这也是金融行业所面临的一个痛点和难点。
02
数据治理架构体系
在上述背景之下,接下来看一下如何从 0 到 1 构建数据治理的架构。主要分以下 2 点来阐述。
数据治理的理念、目标和实施路径
实施支撑
(1)数据治理的理念、目标和实施路径
凡事要先立,也就是是数据治理的理念目标和实施路径,要非常明确。
数据治理的目标有三个“化”:首先是资产化,第二是价值化,第三是智能化。
数据治理的资产化
将原有的数据资源进行资产化,即将企业的数据资产进行盘点,对企业的数据资源目录进行整合,然后形成以数据资产为核心的数据治理的活动。
数据治理的价值化
基于前面已经资产化的内容,把一些良好的资产进行价值的输出,比如说让数据资产进行流通。其释放了流通价值,数据资产在反哺业务,形成了数据资产的二次价值。所以数据资产其实是可以释放多重价值。
数据治理数据的智能化
构建智能化的数据生态,提升企业的整体竞争力,包括构建全链接全场景全智能的数字世界——这是对于各个行业而言,都希望最终能达到的目标。
在以上目标之下,实施路径包括三个核心点:
第一点是逐步推进,分阶段有重点,抓住主要矛盾,集中资源去贴近业务,寻找数据治理的突破口。
第二点是以始为终,像我们去理解这个OKR一样,需要以结果去反推过程,以目标为导向去开展实施。
第三点是机制的系统化。数据治理不是一次性的工作,需要根据企业的现状进行机制的系统化和落地。这部分后面再详细讲一下具体的机制化系统化是如何去落地的。
(2)实施支撑
具体在实操过程中,实施支撑应该怎么样去做呢?整体是自上而下地规划。首先一定要去明确企业的蓝图纲领是什么意思,就是我们最终做数据治理这项工作对企业而言意味着什么?可以说,每个企业的期望,在大的层面是相同的,小的层面是不同的,所以需要以纲领去指导整个制度方面和方针层面的一些工作思路,并对制度进行细化,再落到流程上去约束和指导实操。最终要实践这个流程,需要落地到平台支撑上。
制度:方针
从制度和方针看,这里着重说三点:
第一点是在整个制度的建设上,有了蓝图和纲领,内容也需要持续的跟踪。
第二点是需要去建立量化的评价指标。
第三个是关键的一点,在最开始做这个工作的时候,要建立权责机制。
接下来,流程实践需要哪些对应的保障措施呢?
第一点是治理文化。这包括培训、公众号,也包括我们经常讲到要让我们的业务员和技术人员有满足感,建立自己的数据技能的梯队。
第二点是在组织保障,即三层组织架构管理,战略、管理、执行。在这个过程中运用好核心是要把握住我们的柔性组织,建立全方位、跨部门、跨层级的组织柔性组织,并且把成员的优化和成员的定位及时告知每一个角色,让大家各司其职。
第三点就是考核与激励。从制度层面看,大部分的金融企业在考核层面有一定的难度,但考核与激励是保障整个数据认责体系的有效执行,以及数据治理各个管理域的工作落实到位的核心手段。
平台工具支撑
从平台支撑方面看,有核心的两点需要去注意:
第一点:标准化与定制化的落地关系
很多金融原生企业,之前也采购过一些平台,现在它无法跟其他数据管理域进行连接。这种情况,应该怎么做?数据治理平台工具支撑,它其实不是光选择标准化的治理模块就可以解决的问题,核心是要把定制化流程进行落地。我们把这套机制设计出来之后,要在没有人干预的情况下有效地落实。其实核心靠的就是平台自己自动化地把我们这部分的治理思路进行落地。
第二点:平台内容建设的需求与供给
我们可能也经常会被财务问:为什么我们平台建设花了这么多钱之后,数据治理和数据资产这一层面没有还没有形成有效的价值输出?
平台建设完之后,它的内容建设也极其关键。内容建设方面,是需求侧和供给侧的双轮驱动。在供给侧,平台建设团队会以产品的思维提出建设方向;在需求侧,是以用处置提供融合的场景去填充我们平台的内容。
以上,是实施支撑方面。
03
数据治理管理域间组合与协同
数据治理的各个管理域之间,会产生一种协同力量。三个模块可以建,而单个模块建完则效果不佳,核心是因为各个模块之间有相关能力的组合。DAMA 的 10 个领域的规划,是有一定目的的,包括企业在从 0 到 1 搭建数据治理体系时,哪些模块要选,哪些模块不选,这个时候我们要贴合我们的企业去定制化地选择模块,并且把它们打造成一种能产生组合力的、协同的、数据治理领域的工作。
这里面有个关键点,根据当前工作经历的启示,模型设计、元数据管理、研发实施、质量监控、安全管理、数据服务等数据全生命周期的实施,需要一个可以实现端流程的端到端的一体化管控平台。
上图展示了各数据管理域之间的关系。
数据标准如何落地?
把数据资源进行清洗和加工,资产化之后,会形成基础数据标准、指标数据标准、标签数据标准。
在数据标准之下,如何把它进行落地?需要落在元数据上,包括业务元数据、技术元数据、管理元数据等。
如果一个新的项目来,要新注册元数据。通过链接的过程将元数据与数据标准进行关联,这个过程就是数据标准落地。
如何保障数据标准有效落地?
数据质量规则的依据来源核心是数据标准。如何保障数据标准被落地以及被执行呢?通过数据质量的情况进行一个检查,这就是数据标准、元数据以及数据质量之间的关系。数据质量的每一条核验规则写到每一个字段上、每一条元数据上。关于数据标准、存量的元数据的治理,对于新增的这部分,我们怎么样从源头上能保证我们数据标准的被有效的执行呢?
常用的一种手段叫数据模型,包括物理模型与数据标准的过程链接和落地,从而保证数据模型是可以从源头上进行管理的。数据标准同时又作为一种输出,支撑数据模型。
数据模型、数据标准跟数据安全是什么关系?
关于数据标准,我们经常会讲的一个核心理念就是数据的分类分级。对进行数据分类,进行数据分析,把分类规则输出给数据安全。
在数据安全之外,经常有一部分企业在最开始开展数据治理时,是通过元数据、主数据的治理来开展。主数据是什么?有些核心的高价值的数据会形成主数据,数据标准会通过体系的支撑给到主数据。同时因为主数据在实际应用的规程中,对数据标准的使用进行反馈和优化。
关于数据架构管理。输出一些数据的技术标准给到数据模型,同时数据模型会把高价值的数据资产输出给数据架构管理,这就是数据治理与数据管理域的关系。
数据应用与服务
把数据架构、数据标准、数据质量、数据安全这些建好之后,接下来要进行能力的输出。能力的输出是给到数据应用、数据服务。
数据应用里面的第一个抓手是数据需求管理:一是为了更好地促进数据共享;二是明确数据服务规范,数据需求不断地遵循和适应规范,同时数据服务要反向适应需求——这是一个不断的循环的过程。而最终目标是进行出口的统一管理。
前面讲了从上层战略到底层平台的支撑,接下来从元数据、数据标准、数据质量、数据模型、数据安全、数据应用与服务几方面来总结一下各大管理域落地的核心点。
元数据的落地核心点
元数据落地的目标是建立元数据的数据仓库和产品化。核心关键点是域间管理的核心抓手,需要业务和技术协同完成。
数据标准的落地核心点
目标是统一数据语言,统一约束。
核心关键点有三个。
一是高优先级:例如一部分金融企业可能只做了数据标准和数据质量,他们认为数据标准是开展数据治理活动的核心的前提。
二是独立性:可以只做数据标准。把口径搞清楚,把一些关键的语言统一出来,就可以。
三是关联性:前面聊到了跟数据标准、数据质量等有非常多的关联关系,如果把关联关系同时打通,共同协作去做,它可发挥的价值远远不是第一层只做出标准所发挥出的价值。
数据质量的落地核心点
数据质量是保证为数据分析业务决策提供高质量的数据,保证数据的有效性。
落地的核心关键点包括:
一是建立数据质量的评分卡。
二是进行源头治理。如果仅仅是在数仓内对处理完的数据进行治理,比如数据质量的提升仅在仓内开展,这是远远不够的。本质上数据从业务端开始,从系统端开始,它的数据还是有问题的,没有本质去解决问题,所以源头治理也是核心关键点。
三是数据质量的分级处置:根据不同的数据问题,不同的数据的重要性,设置对应的数据质量处理方案。
四是认责机制。其实这也是整个数据治理工作开展的核心,可以保障质量问题的发现追踪和解决。
数据模型的落地核心点
目标:提供这个数据使用的交换效率和业务的可理解性。
核心关键:对证券行业而言,有发布的证券期货Store模型,大部分的企业都在对store模型进行各种各样的本地化。
数据安全的落地核心点
目标:有效的保护和合法利用,释放数据流动所产生的价值。
核心关键点:数据治理应该做的工作,包括数据的分类分级、数据的权限审批、数据的隔离和数据脱敏。
数据应用与服务的落地核心点
紧贴业务价值,需要进行数据资源的资产化,通过数据资产去支撑更多的业务场景。
这里罗列了 5个经常遇到的问题。
1、元数据可不可以不做?
刚才讲到一部分企业其实只做数据标准和数据质量,好像元数据从来都是IT 的活。数据似乎可有可无,但元数据是承载一切的,包括数据标准、数据质量,还有数据模型、数据安全全部承载在上面。如果不做元数据,就一定无法看到协同组合所发挥的效能,也无法去落地和推动跟踪,会感觉到无法持续运营一些核心关键。
所以我的观点是要做元数据,当然也要基于企业的实际情况。
2、数据标准的内容建设如何铺开,如何进行落标?
(1)数据标准的内容建设如何铺开?
金融行业有比较简单的数据标准的来源:一是外部的监管,二是把一些内部的核心的报表进行拆解,形成指标标准;三是基础数据标准,可以去快速落地的。
(2)如何开展落标?
这个问题在被大家广泛探讨,似乎实践下来没有一个通用的模板。
我们应该明确的核心想法是:落标并不是为了把原有系统全部推翻,而是应该以对现有系统影响最小的原则去进行落地和落标。核心有4点:
第一点,数据标准的目标情况的分析,包括评估数据标准的矛盾,或者混淆的情况,包括对历史的数据标准的合理性和对现存数据情况的适用度进行分析。
第二点,更新数据标准对当前数据的影响的分析,包括上下游的影响,以及兼容性分析等。
第三点,寻找最大公约数。就是在不同的版本或者不同部门间的数据标准里面去寻找一个最大公约数,在力求提升数据质量和对现在的数据情况取得最大适用的情况下,去更新历史的数据标准,以减少整个数据转化的成本,保障整个系统集成以及资源的共享。
第四点,扎实的落实规范。什么意思?在做了这么多工作之外,我们需要建立好数据标准的更新机制,配套的组织、配套的流程、配套的管理办法,来保证落标是为有效地执行。
3、除了外部监管的要求,数据质量的规则来源可能有哪些?
第一个就是业务方或者项目组方使用和或者是开发的过程中,沉淀的数据质量的规则。
第二个是通过元数据或者数据模型对数据标准的引用形成的数据质量检核规则。
第三个是对数据的聚类分析,建立同类字段的检核规则的复用,包括地址类的联系方式类的金额类等等,明白一个类型的数据质量的规则,可能就可以衍生出很多个数据质量的规则。
4、数据的分类分级如何落地,如何去实现数据的分类分级?
核心是要落在元数据上。要进行具体的分类和分析,并且要结合机器学习,再把它应用到我们的数据服务的权限矩阵。
5、对于部分企业而言,数据治理的组织在it里面,业务的参与度极低,怎么能避免不让它变成it人的自嗨呢?
让业务心甘情愿的参与数据的工作,有两点是需要考虑的。
第一点就是我们前面一直讲到的,如何让数据资产发挥它的价值。
第二点是要把数据服务的应用和数据治理进行结合,才能快速的破圈。我觉得核心是不能把治理当作最终目的,不能为了治理而去治理,当有良好的资产,为数据分析和数据挖掘带来了价值,这才能产生正向反馈。
04
数据治理新实践和思考
最后介绍一下我们团队在数据治理上的一些实践和思考。
1.识别关键数据元素,并且视为战略资源进行的量化管理
把数据资产进行等级划分。比如哪部分数据资源应该优先被资产化,哪些重要资产的质量处置等级应该是高优先级的。
一个企业从 0~1 去搭建数据治理的时候,分阶段数据治理需要进行评定,哪部分数据资产要首先发挥价值进行资产化,那么核心就是以这些已经建立的等级划分做依据。
可以看到当前这个量化管理的等级有一些核心的考虑点,包括我们的业务重要性评价,包括数据的访问热度,包括使用频率,包括下游的类型等等,深度链数据链路的深度和数据的层级。
在各个项目中我们都可能会进行分类:对一些新增的元数据进行注册的时候,要进行价值模型评估;对于存量而言,一样要进行圈定。这样我们才能划分优先级,去估算我们数据治理的成本,按照不同的分类有阶段地推进数据治理的工作开展,这样在长期的投入和收益上才能达到一个平衡。
2.“以用促治”,贯穿整个数据生命周期的策略和流程动作,实现端到端管理,纵向全管理域实践
(1)“用”的定义是什么?
我认为用的定义就是在我们实际的项目开展过程中去做治理,对一些核心系统,还有经营和管理直接相关的这部分系统,要贴着我们的项目和实用主义,贴着重要的资产进行资产化。
(2)全生命周期
全生命周期的核心观点是,在整个的项目流程过程中,不管是数据标准,还是元数据注册、数据质量、数据安全,都要把流程做实。从全生命周期的开始到结束,全程贯彻管理理念,以及,要将流程化本地化。把它作为个性化的流程进行设定之后,需要去提炼和总结,形成通用化的流程,再把这部分内容作为企业级的标准流程。
这样既有了数据质量和数据治理整个过程的实践,又有了提炼出来的通用成果,也更容易获得高层的支持。
(3)纵向事件
再有精力和资源的企业,也不会一做数据治理就全面铺开。一定是在某个纵向领域上,比如某一个业务领域,把数据治理的各个管理域的模块摸清楚再进行实践,而不是全面性的铺开,因为资源总是有限的。
一个纵向领域的成功,会给数据治理相关人员带来阶段性的信心,再将这种信心移植到其他业务,这样未来工作也可以得到更好的支撑。
3. 让业务用户深度参与治理过程,提升治理效率,利用AI提升参与过程智能化体验
让业务深度参与数据治理的过程,要提升效率,利用AI去提升整个过程的智能化体验。整个数据治理过程,需要整个平台依据定制化需求去开展数据治理,这一定不是一个通用模块,而是定制化的。随着我们管理思路的变化,这个平台也是要变化的。对一部分重复的数据治理工作,比如元数据,在元数据注册的时候,翻译、业务含义的智能填充,以及元数据和数据标准的对标等都要考虑智能化。
前面讲到了定制化整个平台,除此之外,我们需要把自己的数据和AI能力建设进行融合,要把这种重复性的工作,不断地剥离出来,然后将一些可以明确的规则,作为训练集去训练其他想要做的事情,让它自动化、智能化地完成我们想要做的事情。
4. 分类分级权限矩阵,强化数据安全的智能化管控
分类分级权限矩阵,需要去强化数据安全的智能化管控。这就是前面讲的平台与 AI 的结合。
(1)根据行业分类分级指引,把现有已知的元数据根据标准进行分类和分级,作为基础训练集;训练出模型算法后,运用到其他元数据上,实现对元数据的自动化的分类和目录挂载;最后,再对根据算法自动分类结果进行人工核验,不断校正优化算法。
首先,在证券行业有一个分类分级的指引,这个指引会提供一个参考清单。有了这个清单,我们可以把现有的技术数据标准进行分类和分级。现在数据技术标准大概有4000多个,分类分级之后,将他们作为训练集进行训练,然后把这套算法得出的结果,运用到其他的元数据上面,再进行自动化的分类和目录挂载;分完类之后,再通过人工核验去看结果是否准确,不断的去优化整个算法,以达到自动化将所有数据进行分类和分级的效果。
(2)敏感数据的自动化识别和定级
接下来要做的就是敏感数据的自动化识别和定级,包括敏感数据的策略的静态脱敏,以及如何执行动态脱敏。
当然这个有的平台自己就具备。郭忆老师讲到过网易数帆平台会提供自动化的敏感数据的识别。
(3)数据服务和审批流程
接下来是如何在安全上进行分类分级的应用。
核心落在了数据的服务的审批流程上。不同的数据分类,不同的数据等级,以及是否是敏感数据,在数据服务的这个审批流程中它会走向不同的节点。比如数据访问、离线数据导出,跨系统之间数据请求,都会跟这些核心审核点去进行判定,走不同的审批流程。
(4)AI:数据异常访问监控与预警
最后还有一个就是数据的异常访问,比如包括一些高频的下载行为,需要去进行监控和预警,需要通过建立AI模型去完成。
以上 4 点就是我们在数据治理的过程中的一些实践和思考。
05
问答环节
Q1:数据质量规则的来源有哪些?规则明确以后如何去实现闭环的一个管理?
A1:(1)数据质量的规则从哪里来?
第一个是通过业务方或者项目方在使用过程中或者是开发过程中去沉淀的数据质量的规则。
第二个是通过元数据,以及数据模型对数据标准的引用对标,我们可以生成数据的检核规则。
第三个是通过数据的聚类分析,包括建立同一类型字段的管理与复用,例如地址和联系方式等。
另外再补充说明数据质量的规则。对 IT 人员而言,他只知道技术角度,比如一些数据类型对不对,但核心的业务质量问题是难以发现的。或者说,大部分被监管处罚的数据质量问题都是在业务方角度,所以数据治理中数据质量有一个核心的内容,就是需要业务方的深度参与给拉进来,达到质量检核的业务规则与技术规则联通与统一。
(2)规则明确后如何进行闭环管理?
这个在数据治理这个圈子算是比较有一个基本的套路,就是事前、事中、事后管理。
事前:我们明确这部分规则并把它作为预警的依据。
事中:就是在监测过程中它是否有问题发生。
事后:就是发生了问题之后,如何处置。我们刚才讲到了数据质量的分级处置。可以快速把问题解决掉,那解决掉之后我们以这个规则再去优化。比如说这个数据质量的规则核心是出现了乱码,那么是不是能在前台的页面之中,在前端这个级别就可以解决这个问题,或者是在这个数据写入数据库的时候就可以解决这个问题。所以数据质量的核心问题,不是说表面上我们把当下这个问题解决了,而是由这个问题去引发了我们更多的思考,促进我们从源头解决。
Q2:如何平衡数据安全和数据开发的一个效率?
A2:其实我觉得这个课题不光是数据治理的一个课题,这是一个特别大的课题,我认为应该尽可能的把数据安全的边界划分清楚,尽可能的让数据开发的效率不被数据安全所影响。
什么意思呢?如果这个边界不清晰,做的过程中就可能不断说这个不可以那个不可以,那不如在一开始就将这个安全的边界划清楚,达成一致的规范或指引,哪些可做,哪些不可做,哪些通过审批是可以完成的——从最开始就避免去影响整个开发效率。第二个就是有了边界之后,我们在开发的过程中,需要考虑怎么样运用数据资产的效能,怎么样从数据模型的角度提升数据开发效率。我觉得核心是要把数据资产建设好。
Q3:如何对数据质量的效果进行评估和考核?
A3:其实这个也是一个挺大课题。数据治理的效果,为什么总说长效机制呢,因为它的效果并不会那么快地凸显。那么我认为从一些核心的需要建立一些核心的指标,在一个企业刚开始做数据治理的时候,不要去考虑它所谓的投入产出比。当我们在数据治理成熟度达到大概三四级之后,就要考虑这个问题,也就是数据治理的运营成本。
那么如何评估?我认为首先要建立动态化的监控指标,包括数据指标。资源是有限的,如何把这部分资源投放到各个部门中去进行指标的拟定,以实现帕累托最优;拟定了考核指标,又如何把它体现在我们的运营报表;以及,如何在考核和激励中去运用这些指标——这些是需要贴近这个企业去制定的。
Q4:如何建设数据治理的柔性组织和人才的梯队?
A4:(1)柔性组织。我认为应需而生,问题导向,一定是包含很多业务同事的,加上我们技术的人员去构建的柔性组织。一个没有业务人员参与的数据治理的柔性组织,只是技术人的自嗨。
(2)人才梯队。我认为是核心是要有一些专业的技能,包括刚才郭忆老师讲的数据分析的大赛,这个也是我们后面会去做的事情,但当下我们要做的事情是沉淀足够多的数据资产,用这些数据资产再结合我们数据内容本身的业务价值,才能去做我们数据价值的挖掘,进而从业务角度去培养业务人员的数据技能。那对于我们专业的数据技术人员,他们需要进一步去挖掘他们的业务深度,包括刚才一直讲到这个 AI的结合,包括如何去从数据开发的效能上去跟数据治理结合等等,这是我的看法。
今天的分享就到这里,谢谢大家。如果有地方未能理解可以在一起进行讨论,同时欢迎大家关注公众号,近期会和大家分享更多的数据治理相关的文章,一起讨论学习。
🧐 分享、点赞、在看,给个3连击呗!👇
以上是关于金融数据治理实践与思考的主要内容,如果未能解决你的问题,请参考以下文章