大数据时代数据管理方式研究

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据时代数据管理方式研究相关的知识,希望对你有一定的参考价值。

大数据时代数据管理方式研究1数据管理技术的回顾数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的

参考技术A 大数据时代数据管理方式研究
1数据管理技术的回顾
数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出许多弱点,面临着许多新的挑战。
1.1 人工管理阶段
20 世纪 50 年代中期,计算机主要用于科学计算。当时没有磁盘等直接存取设备,只有纸带、卡片、磁带等外存,也没有操作系统和管理数据的专门软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。
1.2 文件系统阶段
20 世纪 50 年代后期到 60 年代中期,随着计算机硬件和软件的发展,磁盘、磁鼓等直接存取设备开始普及,这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。其数据面向特定的应用程序,因此,数据共享性、独立性差,且冗余度大,管理和维护的代价也很大。
1.3数据库阶段
20 世纪 60 年代后期以来,计算机性能得到进一步提高,更重要的是出现了大容量磁盘,存储容量大大增加且价格下降。在此基础上,才有可能克服文件系统管理数据时的不足,而满足和解决实际应用中多个用户、多个应用程序共享数据的要求,从而使数据能为尽可能多的应用程序服务,这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用,而是面向全组织,具有整体的结构性,共享性高,冗余度减小,具有一定的程序与数据之间的独立性,并且对数据进行统一的控制。
2大数据时代的数据管理技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有 3 个 V,一是大量化(Volume),数据量是持续快速增加的,从 TB级别,跃升到 PB 级别;二是多样化(Variety),数据类型多样化,结构化数据已被视为小菜一碟,图片、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建;三是快速化 (Velocity),数据生成速度快,也就需要快速的处理能力,因此,产生了“1 秒定律”,就是说一般要在秒级时间范围内给出分析结果,时间太长就失去价值了,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。
2.1 关系型数据库(RDBMS)
20 世纪 70 年代初,IBM 工程师 Codd 发表了著名的论文“A Relational Model of Data for Large Shared DataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型,是借助于集合代数等数学概念和方法来处理数据库中的数据,现实世界中的实体以及实体之间的联系非常容易用关系模型来表示。容易理解的模型、容易掌握的查询语言、高效的优化器、成熟的技术和产品,使得关系数据库占据了数据库市场的绝对的统治地位。随着互联网 web2.0 网站的兴起,半结构化和非结构化数据的大量涌现,传统的关系数据库在应付 web2.0 网站特别是超大规模和高并发的 SNS(全称 Social Networking Services,即社会性网络服务) 类型的 web2.0 纯动态网站已经显得力不从心,暴露了很多难以克服的问题。
2.2 noSQL数据库
顺应时代发展的需要产生了 noSQL数据库技术,其主要特点是采用与关系模型不同的数据模型,当前热门的 noSQL数据库系统可以说是蓬勃发展、异军突起,很多公司都热情追捧之,如:由 Google 公司提出的 Big Table 和 MapReduce 以及 IBM 公司提出的 Lotus Notes 等。不管是那个公司的 noSQL数据库都围绕着大数据的 3 个 V,目的就是解决大数据的 3个 V 问题。因此,在设计 noSQL 时往往考虑以下几个原则,首先,采用横向扩展的方式,通过并行处理技术对数据进行划分并进行并行处理,以获得高速的读写速度;其次,解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题;再次,放松对数据的 ACID 一致性约束,允许数据暂时出现不一致的情况,接受最终一致性;最后,对各个分区数据进行备份(一般是 3 份),应对节点失败的状况等。
对数据的应用可以分为分析型应用和操作型应用,分析型应用主要是指对大量数据进行分类、聚集、汇总,最后获得数据量相对小的分析结果;操作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总操作,涉及的数据量一般比较少,事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库,根据数据应用的要求,再结合目前数据库的种类,所以目前数据库管理方式主要有以下 4 类。
(1)面向操作型的关系数据库技术。
首先,传统数据库厂商提供的基于行存储的关系数据库系统,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精确性、系统可恢复性,在事务处理方面仍然是核心引擎。其次,面向实时计算的内存数据库系统,如 Hana、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等操作控制在内存内部进行,所以获得了非常高的性能,在很多特定领域如电信、证券、网管等得到普遍应用。另外,以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。
(2)面向分析型的关系数据库技术。
首先,TeraData 是数据仓库领域的领头羊,Teradata 在整体上是按 Shared Nothing 架构体系进行组织的,定位就是大型数据仓库系统,支持较高的扩展性。其次,面向分析型应用,列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点,在分析型应用领域获得了比行存储数据库高得多的性能。如:MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。
(3)面向操作型的 noSQL 技术。
有些操作型应用不受 ACID 高度一致性约束,但对大数据处理需要处理的数据量非常大,对速度性能要求也非常高,这样就必须依靠大规模集群的并行处理能力来实现数据处理,弱一致性或最终一致性就可以了。这时,操作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如,Hbase 一天就可以有超过 200 亿个到达硬盘的读写操作,实现对大数据的处理。另外,noSQL数据库是一个数据模型灵活、支持多样数据类型,如对图数据建模、存储和分析,其性能、扩展性是关系数据库无法比拟的。
(4)面向分析型的 noSQL 技术。
面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台,Hadoop 是一个分布式计算平台,以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究,如微软公司关闭 Dryad 系统,全力投入 Map Reduce 的研发,Oracle 在 2011 年下半年发布 Big Plan 战略计划,全面进军大数据处理领域,IBM 则早已捷足先登“,沃森(Watson)”计算机就是基于 Hadoop 技术开发的产物,同时 IBM 发布了 BigInsights 计划,基于 Hadoop,Netezza 和 SPSS(统计分析、数据挖掘软件)等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术,如 Cloudera、MapRKarmashpere 等。
3数据管理方式的展望
通过以上分析,可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对这一致性和隔离性的要求可以降低,而可用性的要求则更为明显,此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP.关系数据库和 noSQL数据库并不是想到对立的矛盾体,而是可以相互补充的,根据不同需求使用不同的技术,甚至二者可以共同存在,互不影响。最近几年,以 Spanner 为代表新型数据库的出现,给数据库领域注入新鲜血液,这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。
4 结束语
随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。

中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌


中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

2020年1月7日下午,由中国发展研究院主办,主题为“共创繁荣 共享未来”的“大数据时代——分布式存储与智慧城市精英峰会”在北京举行,中国发展研究院院长、中国社会经济调查研究中心主任、国家创新与发展战略研究会副理事长王彤博士出席开幕式并致辞,同时宣布中国发展研究院分布式存储研究中心正式授牌成立。


中国发展研究院原创首发 授权转载请联系我们


中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

中国发展研究院院长王彤博士致辞


国务院国有重点大型企业监事会原主席刘顺达,中国工程院院士、中国科学院计算技术研究所研究员倪光南等领导和专家出席峰会并分别致辞祝贺。

中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

国务院国有重点大型企业监事会原主席刘顺达致辞


中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

中国工程院院士倪光南致辞


王彤院长在致辞中表示,中国发展研究院分布式存储研究中心的正式成立,是中国发展研究院开展产学研合作,共建共享,通过协同创新积极响应国家“数字中国”发展大战略,贡献自身才智,践行时代使命的一项重大举措。

王彤院长指出,我们正身处人类社会从工业社会向信息社会跃迁的历史性关口,十九大以来,党中央制定了包括“数字中国”在内的一系列重要国策,为我们迎接信息时代的美好未来,发展数字经济、建设“数字中国”指明了方向、确定了路径。
 
中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

王彤院长与出席峰会的领导及专家合影


基于此,王彤院长强调,中国发展研究院分布式存储研究中心要重点做好三方面工作:


第一,发展数字经济、建设“数字中国”,科技为基。


“科技兴则民族兴,科技强则国家强”。进入数字经济时代,技术进步呈现指数级增长、群体突破、交叉融合态势。要在前沿技术领域取得关键突破或催生重大经济社会效益的创新,离不开高质量的基础研究、高标准的技术体系和高水平的知识转移,需要更多的原始创新、合作创新。北京交通大学位列国家“世界一流学科建设高校”、“211工程”、“985工程优势学科创新平台”,科研力量雄厚;而杭州麦田云际科技有限公司在打造数字城市、赋能AI人工智能和构建数字经济等领域成绩卓著,致力于打造数字生态云存储,为5G时代大数据的存储及更深层的应用等领域,做好了技术、人才、资源、市场等各方面的准备。此次双方强强联手、优势叠加,为的就是在我国分布式存储领域打造国家级科技创新平台,聚焦关键技术、前沿科技,奠定产业发展的科技基础。



第二,发展数字经济、建设“数字中国”,智慧为王。


中国发展研究院创立十八年来始终秉承“全局胸襟、前瞻眼光、思想创新、措施务实”的学术研究宗旨和“言必有物、策必可行”的工作作风,紧紧抓住改革开放的主题、主线,向党和国家积极建言献策。“数字中国”是新时代我国实现全面跨越式发展的重大新战略,不进则退、慢进亦退,需要持续推进政策制度突破和体制机制探索,积极开展理论创新、模式创新、制度创新和标准创新,研究并提出全局性、战略性、前瞻性理论成果,推动政府立法先行先试,探索建立发展数字中国的各方面关键共性标准……诸多工作都离不开智库的参与、传播与推动。中国发展研究院此次成立分布式存储研究中心,不仅是看到分布式存储目前的技术优势和成果应用,更是看好它符合新一代互联网的发展方向,符合中国信息化建设的实际需要,及其在未来数字经济、数字中国建设中能够发挥出来的关键性的重要作用。为此,中心将积极开展相关的理论创新、政策研究和成果推广,为推进我国分布式存储产业更快更好地发展保驾护航。


第三,发展数字经济、建设“数字中国”,合力为上。


数字经济时代是开放、包容、多元的时代。数字时代的万物互联使得创新资源的流动性、可用性和创新主体间的相互依赖性都将极大提升。数字经济领域的创新复杂性和不确定性也会越来越高,创新链的各个环节已难以在一家企业、一块区域乃至一个国家内部完成。无论是应对人类共同的挑战,还是消除数字鸿沟、推动产业升级,都需要更加主动的开放创新与全面合作。 中国发展研究院分布式存储研究中心就是分布式存储的协同创新平台,这个平台不仅仅是我们这三家合作单位相互之间的合作平台,更是面向业界、面向社会的全面开放、共建共享的协同创新平台。 今天,它立足于分布式存储的专业领域;明天,它还将为发展数字经济承担起更多的责任,为建设数字中国贡献出更大的力量。
 
中国发展研究院分布式存储研究中心正式成立 | 王彤院长出席大数据时代-分布式存储与智慧城市精英峰会并授牌

CDRI·中国发展研究院


在随后举行的任职仪式上,王彤院长亲自为中国发展研究院分布式存储研究中心授牌,并颁发任职证书。



智库推荐



点击图片获取更多信息

订阅:13366623305 曹主任

以上是关于大数据时代数据管理方式研究的主要内容,如果未能解决你的问题,请参考以下文章

大数据概述

原创搜索引擎在大数据时代中的变革

试述大数据对思维方式的影响

大数据安全论坛:新基建时代下的数据安全

中创时代大数据应用中心(广州)基地正式成立

科研一对一 | 香港城市大学 | 机器学习工业工程数据科学:大数据时代数据作为生产要素的质量依赖型定价模型研究