如何搭建AI数据中台?
Posted 北京小辉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何搭建AI数据中台?相关的知识,希望对你有一定的参考价值。
转自: 宜信技术学院
AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。
什么是AI数据中台?
在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是烟筒构架,每个部门各自满足业务部门的需求。
这种构架不仅耗费各部门大量的精力也使得各个系统难以打通管理,无法形成更强大的数据能力,同时,对数据进行维护的工作量也非常大。但是在如今人工智能变革过程中,数据的获取和使用无疑成为了智能程度高低的瓶颈,所以能不能建立AI数据中台,意味着你的智能系统成败的关键。
现在的数据中台是全新的架构变革。一切业务数据化,一切数据业务化,是AI时代的标配。5G技术的发展,可能会进一步放大视图声数据的重要性。
不管从数据量的增长、数据处理技术的进步,还在站在企业对数据中台的认知来说, AI数据中台搭建都是每个企业必须要考虑的。AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。
什么是AI数据中台?首先它不是一个平台,也不是一个系统,AI数据中台包含先进技术,但不仅仅是技术,更重要的是依托先进技术,利用其所拥有的核心资源,构建生态向心力,所以说AI数据中台是一种能力。
AI 数据中台整体架构
数据中台对一个企业,起着至关重要的作用,各个业务系统经年累月以烟囱架构形式存在而导致的数据孤岛、数据隔离、数据不一致等等。因为这些问题实在是过于繁杂,因此数据仓库、数据湖、主数据治理等一系列的工作职能应运而生。
这样的数据治理工作在进行了很多年后,数据中台这个概念逐渐有人提出了,阿里的《企业IT转型直到:阿里巴巴中台战略思想与架构实践》这本书更是对这个概念做了一次普及。
现在我们发现,深度学习、机器学习等等一系列技术开始在这个平台下起到作用的时候。AI中台开始落地实施,AI中台是数据中台的进一步延伸,从数据中台一步一步演进过去。
AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的及业务赋能的作用。
简单来说,一个企业各个应用源源不断的产生数据,各个业务模块的数据汇总,经过统一的清洗、归类、纠错、标注、定义、颗粒化及构建索引,形成数据中台。再根据各类算法及机器学习,从而形成企业的AI中台。可对外输出决策能力、算法模型、功能模型及业务能力,这就是一个简单的AI中台模型。
AI 数据中台解决的问题,可以总结为五点
1)效率问题:人工智能本质上,是要解决效率问题。在人工智能时代,体力活或者技术型的劳动不再需要人去做,因为平台数据割裂,互为一体,用户数据分散存储,有存储用户性别的数据。但是另外的应用无法调用,需要用户再次输入,重复操作。效率降低。
2)协作问题:各应用之间的协作在大企业中很常见,协作的前提是能够互通有无,但是如果不知道对方有哪些可以帮到自己,沟通过程中就会出现需求不明确现象,当建立AI数据中台后就可以打破窗户纸,协作更加顺畅。
3)关联度问题:一个完整的用户画像需要多方位的数据信息,例如可以根据根据用户点餐的习惯,可以判断ta的日常饮食习惯,结合用户的浏览的租房内容可以判断ta的消费档次,再结合投递职位的薪资,我们可以计算出ta的基本收入,只有数据丰富才有可能形成智能。
4)能力问题:数据中台并非把数据堆到一起,那不叫AI数据中台,做数据挖掘后你会发现,这些数据可以为每个单独的业务模块赋能,也就是说通过各个业务模块提供的数据,整理挖掘后再为各个业务提供之前没有的能力。
5)时效问题:数据有价值,实时数据更有价值,在没有AI数据中台前,无法做到数据通信的时效性,当有了AI数据中台后时效性的数据会成为企业决策和产品能力提升的关键因素。
AI数据中台团队
搭建AI数据中台需要有一个独立的团队,能够对所有业务的数据做统一梳理、归纳。其中必不可缺的角色包括:
数据产品经理:数据产品经理这个职位,其实很跨界:需要懂程序,做数据收集及清洗;需要懂产品,了解内外部用户需求和理解市场;需要懂数据,用数据的方式证明、证伪及发现问题。数据产品经理既要完成数据体系设计,让原本无序或庞杂的数据变得“规矩”,又要根据业务场景的变化,不断调整项目内容,推进项目进度。所以说数据产品经理是搭建AI数据中台的整体把控者。
业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据,使得产品符合逻辑。
数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。
数据分析团队:分析数据价值、探索场景,生产更多的数据服务。
数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具来围绕业务场景解决数据质量和安全问题。就类似每个程序员要配备两个测试员一样,数据治理同样重要。
智能算法团队:为数据分析、业务探索提供智能和算法工具。实现中台的AI化。
AI 数据中台中的产品经理定位
数据都是有用的:所有数据都是有用的,凡是用户留下的数据包括停留时长、触达页面,页面热区等,都是有用的,尽可能的保留用户所有痕迹。在不同的场景下数据的需求维度不一样,不同的数据组合可以帮助你构建不同的算法模型。
培养大数思维:数据产品经理必须具备大数思维,因为你要处理的数据量级都是超大的,如果你处理的是文本数据量是1亿条,那么有5000条的错误率,要不要忽略,0.005%,这是可以忽略的,但是5000的量级在传统的产品中一般是不可忽略的。数据是相对的,培养大数思维会少做好多无用功。
不要相信知觉,相信结果:在处理数据中不要单凭自己看到的一部分数据量而判断所有的数据集,不要感觉某些数据是不是有用,是不是需要标注。要不断的去测试调优,要相信最终的结果。
数据隐私问题:如果系统自动推送一个你感兴趣的广告产品,有的人会理解很贴心,正好符合我的需求,很多人会觉得吓一跳:它怎么知道我喜欢这个?要想获得更好的体验必须牺牲个人隐私,这到底是不是一个必要条件。个人感觉这个问题必将被技术解决,任何技术产品的问题最终会被其他技术解决。现阶段的产品经理只有做到依靠现有的脱敏等技术手段及道德底线来维护现有用户的数据隐私问题。
总结
AI发展必需依靠算法、数据和算力三方面的组合才能有更好的效果,现阶段算力需要硬件的突破,算法的进步需要更多的算法工程师的努力才能有突破。能否高效的利用数据是各大公司的差距所在,AI数据中台无疑是解决这个问题的最优解。率先搭建持续优化,也许可以帮助大企业在智能化方向上有个大的进步。
以上是关于如何搭建AI数据中台?的主要内容,如果未能解决你的问题,请参考以下文章