盘古开源丨大数据时代下的数据存储

Posted 盘古开源

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了盘古开源丨大数据时代下的数据存储相关的知识,希望对你有一定的参考价值。

随着信息社会的发展,越来越多的信息被数据化,尤其是伴随着互联网的发展,数据则呈现爆炸式增长。

存储服务的发展趋势来看,一方面对数据的存储量的需求越来越大,另一方面对数据的有效管理提出了更高的要求。首先是存储容量的急剧膨胀,从而对于存储提出了更大的需求;其次是数据生命周期的增加。最后,对数据存储的管理提出了更高的要求。数据的多样化、地理上的分散性、对重要数据的保护等等都对数据管理提出了更高的要求。

随着社会不断发展,数据从GB、TB到PB量级海量急速增长。存储产品不再是附属于服务器的辅助设备,而成为互联网中最主要的基础设施。海量存储技术已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,在这种浪潮中,数据存储成为先锋。

海量数据存储简介

海量存储的含义在于数据存储中的容量增长是没有止境的。因此,用户需要不断地扩张存储空间来保存数据。但是,存储容量的增长往往同存储性能并不成正比。这也就造成数据存储上的误区和障碍。

海量存储技术的概念已经不仅仅是单台的存储设备。而多个存储设备的连接使得数据管理成为一大难题。

企业在海量数据存储中存在的问题

目前企业存储面临几个问题,一是存储数据的成本在不断地增加,如何削减开支节约成本以保证高可用性;二是数据存储容量爆炸性增长且难以预估;三是越来越复杂的环境使得存储的数据无法管理。企业信息架构如何适应现状去提供一个较为理想的解决方案,目前业界有几个发展方向。

存储虚拟化

对于存储面临的难题,业界采用的解决手段之一就是存储虚拟化。虚拟存储的概念实际上在早期的计算机虚拟存储器中就已经很好地得以体现,常说的网络存储虚拟化只不过是在更大规模范围内体现存储虚拟化的思想。该技术通过聚合多个存储设备的空间,灵活部署存储空间的分配,从而实现现有存储空间高利用率,避免了不必要的设备开支。

存储虚拟化的好处显而易见,可实现存储系统的整合,提高存储空间的利用率,简化系统的管理,保护原有投资等。其实虚拟化并不是一个单独的产品,而是存储系统的一项基本功能。它对于整合异构存储环境、降低系统整体拥有成本是十分有效的。在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念。

容量扩展

目前而言,在发展趋势上,存储管理的重点已经从对存储资源的管理转变到对数据资源的管理。随着存储系统规模的不断扩大,数据如何在存储系统中进行时空分布成为保证数据的存取性能、安全性和经济性的重要问题。面对信息海量增长对存储扩容的需求,各家存储厂商均提出了各自的解决方案。由于存储系统比较复杂,种类繁多,存储技术的发展业界还没有形成统一的认识,因此在应对存储容量增长的问题上,尚存在很大的提升空间。

技术是发展的,数据的世界也是在不断变化的过程中走向完美。企业信息架构的“分”与“合”的情况并不绝对。目前、出现了许多的融合技术,这些都将对企业信息架构产生不同的影响。至于到底采用哪种技术更合适,取决于企业自身对数据的需求。

海量数据存储技术

为了支持大规模数据的存储、传输与处理,针对海量数据存储目前主要开展如下三个方向的研究:

虚拟存储技术

存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射,通过虚拟化技术,为用户和应用程序提供了虚拟磁盘或虚拟卷,并且用户可以根据需求对它进行任意分割、合并、重新组合等操作,并分配给特定的主机或应用程序,为用户隐藏或屏蔽了具体的物理设备的各种物理特性。存储虚拟化可以提高存储利用率,降低成本,简化存储管理,而基于网络的虚拟存储技术已成为一种趋势,它的开放性、扩展性、管理性等方面的优势将在数据大集中,异地容灾等应用中充分体现出来。

高性能I/O

集群由于其很高的性价比和良好的可扩展性,近年来在HPC领域得到了广泛的应用。数据共享是集群系统中的一个基本需求。当前经常使用的是网络文件系统NFS或者CIFS。当一个计算任务在Linux集群上运行时,计算节点首先通过NFS协议从存储系统中获取数据,然后进行计算处理,最后将计算结果写入存储系统。在这个过程中,计算任务的开始和结束阶段数据读写的I/O负载非常大,而在计算过程中几乎没有任何负载。

当今的Linux集群系统处理能力越来越强,动辄达到几十甚至上百个TFLOPS,于是用于计算处理的时间越来越短。传统存储技术架构对带宽和I/O能力的提高却非常困难且成本高昂。这造成了当原始数据量较大时,I/O读写所占的整体时间就相当可观,成为HPC集群系统的性能瓶颈。I/O效率的改进,已经成为今天大多数Linux并行集群系统提高效率的首要任务。

海量数据处理时容易出现的问题分析

在海量数据处理时容易出现系统资源占用率高。这个时候,用户对海量的数据进行处理,除了好的方法,另外对存储设备的软硬件要求要更严格,当然最重要的就是合理使用工具,合理的分配资源。

大数据的时代存储的应用会非常广泛,作用也愈发重要。

以上是关于盘古开源丨大数据时代下的数据存储的主要内容,如果未能解决你的问题,请参考以下文章

盘古开源丨大数据产业价值持续释放,有效推动数字化转型升级

盘古开源丨赋能大数据时代的数据存储

盘古开源丨数据大爆炸时代,云存储成为企业存储必然发展方向

盘古开源解析:大数据时代,数据存储如何解决能耗问题和打破数据孤岛

盘古开源:“大内存”时代即将到来,颠覆性的存储模式

盘古开源:“大内存”时代即将到来,颠覆性的存储模式