数据湖,当然得要全闪存的!
Posted weixin_58001300
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据湖,当然得要全闪存的!相关的知识,希望对你有一定的参考价值。
文 / 戴尔科技集团大中华区非结构化数据存储事业部总经理刘志洪
为什么是全闪存数据湖,为什么是现在?
当今,需求最严苛的非结构化数据工作负载让许多存储系统“疲于奔命”,难以处理。如大量的图形和视频文件,分析、研究、基因组学和人工智能数据的大型存储库,半导体电子设计自动化,高性能计算(HPC)和许多其他计算场景等。为什么?因为这些工作负载需要大量的CPU和GPU处理能力,并且需要系统具备无缝扩展容量和性能的能力。
数据本地化、性能和经验证的技术是面向AI场景对基础设施的前三大考量因素。公司希望其文件存储系统能够跟得上数字业务不可预测的需求。事实上,来自企业战略集团(Enterprise Strategy Group)最近的一项研究发现,为了跟上数字业务的需求,用于非结构化数据的大数据/数据湖存储库是受访者投资最多的三个工作负载场景之一。要想充分释放数据的商业潜力,文件存储不仅要足够大,还必须速度快,易管理。
另一项来自ESG的研究表明,这些需求正带来全闪存数据湖的增长。
这就是为什么现在戴尔科技集团将推出迄今为止最强大的节点Dell EMC PowerScale F900,进一步巩固在非结构化数据存储领域数十年的领导地位。
PowerScale F900:全闪存阵线再添“王牌”
F900是戴尔科技集团屡获嘉奖的PowerScale全闪存阵容新成员,配有dual-socket的cascade lake处理器,全NVMe闪存,并兼容NVIDIA GPUDirect,以帮助用户处理最数据密集型的工作负载。通过F900的发布,用户可以通过快速的全NVMe,以及对GPU加速应用程序的支持获得更强大的功能和扩展能力。简言之,F900就是为了现代化高性能数据湖而生。
Dell EMC PowerScale F900
为满足用户在边缘、核心和公有云中的各类非结构化数据存储需求,新的发布还给用户提供了更大的灵活性和更多的可选择配置。基于强大的PowerScale OneFS操作系统,用户可以轻松地添加新的F900节点或用新的PowerScale节点替换旧节点,同时与现有的Isilon集群无缝兼容。
“我们为最新的PowerScale全闪存平台和OneFS升级提供的额外功能和灵活性感到兴奋。尤其是了解到可以在集群在线的情况下简单地更换最新一代的产品,这让我们完全不必担心。”Nature Fresh Farms 信息技术总监Keith Bradley 表示,“通过PowerScale全闪存,我们可以支持我们满足最严苛的数据工作负载——从新的边缘用例到核心数据中心,以及潜在的公有云工作负载。”
此外,PowerScale全闪存产品提供同时支持本地和公有云工作负载的选项,用户可以选择以一体机或即服务的形式享受技术服务。
PowerScale强大的全闪存层支持Google Cloud
Dell EMC PowerScale for Google Cloud横向扩展文件服务将强大的性能引入Google Cloud,现已支持一级敏捷配置。这些新的全闪存部署选项降低了准入门槛,最小容量限制更低,承诺期限更短。如果用户想要试用该服务,可以在线接入,通过简洁方便的方式享受服务。
“我们持续与戴尔科技集团合作,通过Dell EMC PowerScale for Google Cloud为客户交付高价值和更多部署选项。Dell EMC PowerScale for Google Cloud将PowerScale强悍的扩展性和性能与Google Cloud经济、创新的原生服务相结合。”Google Cloud存储总经理Guru Pangal表示,“作为唯一提供与PowerScale集成的云供应商,我们提供了可扩展的、强大的一级配置,满足那些短期使用高性能全闪存的客户需求,以帮助其处理要求最严苛的文件工作负载。我们与戴尔科技集团拥有紧密的合作关系,双方将并肩合作,为共同的客户提供整合的、一流的存储服务和解决方案。”
PowerScale:简单、灵活、可靠
PowerScale OneFS操作系统是PowerScale节点背后的动力,已经在部署3到252个节点集群的各类客户中一次又一次地得到了验证,这些节点集群共同形成了一个支持混合云的企业数据湖。新发布的PowerScale OneFS 9.2将PowerScale F200(边缘/入门节点)和F600(全NVMe的紧凑性能节点)系统的顺序读取速度分别提高了25%和70%。此外,通过为具有网络文件系统(NFS)的应用程序和客户端提供远程直接内存访问(RDMA)支持,客户可以从加速的GPU驱动应用程序、显著增强的吞吐量性能和低延迟通信中获益,特别是对于单连接和读取密集型工作负载而言。
“现代人工智能和数据科学应用要求强大的性能和存储能力,从边缘到数据中心再到云,都需要最大的吞吐量、高带宽和低延迟。”NVIDIA企业计算主管Manuvir Das表示,“通过NVIDIA GPUDirect Storage,戴尔PowerScale F900为医疗保健、金融服务、汽车和更多行业的广泛客户提供了强大的存储平台,确保其基础设施针对人工智能应用场景实现了优化。”
通过PowerScale,用户还可从戴尔科技集团领先的生态系统中获益,包括超过250家ISV合作伙伴的集成和认证,涉及AI、高性能计算、分析、备份、数据管理、安全、自动驾驶和基因组学。
“Dell EMC PowerScale是我们最终的文件数据平台。”Pisa大学首席技术官Maurizio Davini表示,“这项技术使我们能够构建数据驱动的产品,并帮助做出良好的决策,为我们的投资带来巨大回报。从PowerScale中获得的价值是无与伦比的。”
基于Dell EMC在Spec ' 14和NFS IOzone基准上为使用OneFS9.2和OneFS9.1的All-flash节点执行的内部性能测试。性能因集群而异,并取决于工作负载。2021年2月。实际结果会有所不同。
以上是关于数据湖,当然得要全闪存的!的主要内容,如果未能解决你的问题,请参考以下文章
Flink + Iceberg + 对象存储,构建数据湖方案