数据湖了解
Posted 爱笑的加油怪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据湖了解相关的知识,希望对你有一定的参考价值。
论数据湖技术及其应用
摘要:近年来,随着互联网、物联网、工业物联网等技术的不断发展,企业级数据类型异常复杂,数据湖这一数据管理技术应运而生,数据湖是存储各种原始数据的大型仓库,无需进行结构化处理,可供存取、处理、分析等多用途,下文将浅析数据湖技术并参考案例给出个人分析。
关键词:数据湖,数据仓库,数据架构设计
什么是数据湖技术?
数据湖是一个存储企业各种原始数据的大型仓库,支持人以规模的结构化、半结构化和非结构化数据进行集中式存储,数据按照原有结构进行存储无需进行结构化处理;数据湖汇总的数据可供存取、处理、分析、及传输,支撑大数据处理,实时分析、机器学习、数据可视化等多种应用,最终支持企业的智能决策过程。
数据湖技术与数据仓库技术
答案显然是否定的。但不可否认数据湖和数据仓库都是数据存储库,数据湖以其本机格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据,在需要数据之前,没有定义数据结构和需求。数据湖和数据仓库的区别,主要在于数据仓库的数据进入这个池之前是预先分类的,这可以指导其后面如何进行数据的分析。但在大数据时代,这些都是素材而已,你根本不知道以后如何用它。也就是数据湖给后面的数据分析带来了更大的弹性。因此,这个放大数据的仓库,专家建议叫数据湖。为区别于数据仓库,主要作出以下对比:
数据:数据仓库只存储建模后或结构化的数据;而数据湖对数据没有要求,结构化、半结构化和非结构化的数据均会储存。处理:在将数据载入至数据仓库之前,我们首先要建模,这种模式被称为写模式(schema-on-write);而将数据载入至数据湖之前,可以直接将原始数据载入,等到需要使用数据时在进行结构化、建模,这种模式叫做读模式(schema-on-read)。
存储: 数据湖可以无约束、一站式地分析所有数据,可存储数万亿个文件,其中单个文件的大小可能大于PB级,比其他云存储大200倍。消除与云上的大数据量相关的时间和空间复杂性。
成本:随着数据的增长,数据湖可以轻松扩展和采集数据湖中的数据,无论其类型和结构如何。告别传统存储,节省成本。不仅如此,数据湖加速自信的决策。赋能数据用户,以自助方式访问数据,运行试探性分析,从而实现更出色的成果,更快地实现价值。
用户:一直以来,数据仓库的口号都是“让人人都可以做商业情报和分析”,人们在建好数据仓库后,也会邀请大量用户来使用,但效果并不理想,只有20-25%的人会真的使用。那数据湖能解决这个问题吗?目前看来很难。根据当前数据湖的成熟度,仍然只能算是数据专家们的专属工具。
数据模式转换时机:通过将结构化和非结构化数据迁移至数据湖,可以节省用于数据准备和转换的时间和资源。赋能 IT 团队,使他们能够将精力集中于创新活动。总的来说,数据湖概念解决了信息孤岛的问题,用户可以将不同来源不同结构的数据都集中到一个数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。 数据质量:数据湖支持组织中的所有数据使用者通过自助形式访问业务的可信数据,高效做出由数据推动的智慧决策。
数据湖应用之创新大数据平台
创新大数据平台的核心是数据和服务,围绕数据库建设,通过采编、征集、统计等途径收集数据,然后经过清洗、加工导入等处理汇入数据仓库。构建科技创新数据库集群通过软件体系研发平台达到服务政府部门,创新主体等群体的目的,开展辅助决策、智能推送、定制服务等网络信息服务。
数据平台之架构设计
创新大数据平台采用B/S架构、基于web应用,方便产品更新迭代,为应对其不断变化的平台功能需求,采用敏捷开发模式,内置数仓分离结构,以增强系统可用性。将原系统中子系统抽离,采用数据湖技术,将所有数据统一集中,进行数据治理,取缔缓冲层管理、数据仓库管理功能模块,可通过接口访问,为智能分析,辅助决策听过数据支撑和保障,效果如下
创新大数据平台之数据管理
数据源层即为上图信息资源层,元数据层为上图数据层,功能层对应接口操作,访问层对应子系统
元数据功能层提供了元数据管理产品的基本功能,包括元模型增删改查及版本发 布功能、元数据增删改查及版本管理、元数据变更管理、元数据分析应用、元数据检核以及产品的系统管理功能。 其中元模型管理模块用于操作元模型,元模型是对各个种类元数据以及元数据之 间关系的定义。
元模型包括两部分:一部分由元数据管理平台产品内置的标准元模型, 另一部分是用户根据管理需求自定义的元模型。元模型管理还设计了发布功能,只有在发布之后才会生效,使用户在设计元模型时,不会影响到元数据的使用。元数据管理主要包括了元数据增删改查日常维护,版本管理,元数据全文检索。
元数据访问层用于给用户提供访问控制服务。元数据产品面向的主要用户群有三 类:技术设计人员、业务分析人员、以及系统的运维人员。通过门户访问和后台访问, 可以实现多种角色的访问控制。同时访问层还提供了多种形式的接口服务,可以很方便的与其它 IT 系统进行集成
子系统功能包括了机构用户角色的科技统计,资源调用,专家系统,专题定制,统计分析等系统运维相关的功能
通过不同的数据层次完成数据管理。
以上是关于数据湖了解的主要内容,如果未能解决你的问题,请参考以下文章