企业的数据存储处理与分析之道

Posted 阿里云云栖号

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了企业的数据存储处理与分析之道相关的知识,希望对你有一定的参考价值。

12月30日,SelectDB 携手阿里云共同举办云数仓专场沙龙,在线上沙龙中,来自 SelectDB 和 阿里云的四位云计算领域专家,深入数仓的发展现状和未来趋势,结合企业级的真实场景落地案例,对技术和产品进行了详细的解读。

SelectDB Cloud 飞轮科技核心云产品介绍

来自 SelectDB 的云产品负责人姜国强总结了目前数据仓库发展的需求与演进方向,他认为:“目前,我们已经来到了以云数仓为中心的现代数据栈时代,数据分析技术的融合发展、云的规模化,可以解决成本问题、实时性问题;云的按需使用、弹性伸缩可以很好的解决传统湖仓并行时代下遗留的问题和挑战,例如运维压力大、资源成本高以及对实时性、效率的更高要求等。”

在这样的背景下,飞轮科技诞生,并基于 Apache Doris 研发了新一代云原生实时仓库 SelectDB Cloud。

在研发中,SelectDB 引入了组织、仓库、集群三种不同的概念,姜国强介绍:“在 SelectDB Cloud 的概念中,一个公司便代表着一个独立的组织,一个组织能够通过创建不同的仓库来服务不同的业务,不同仓库间的资源和数据相互隔离。而一个仓库可以包含多个集群,它们共享底层的数据,不同集群可以满足不同的工作负载,十分方便。”

通过 SelectDB Cloud 的产品架构图,姜国强展示了 SelectDB Cloud 的研发思路和理念。基于云原生架构设计的 SelectDB Cloud 充分了利用云的创新硬件和技术,支持按需使用,无限拓展,能够为企业带来多云一致的服务体验另外,SelectDB Cloud在存算分离的架构下实现了弹性伸缩、负载分离、低成本和安全可靠,并且能够达到业界一流的性能;同时,SelectDB Cloud 能够高度兼容大数据的生态,大大降低了开发的门槛

姜国强表示:“ 在未来,团队会持续优化 SelectDB Cloud 的产品设计,并逐渐将其打造成一款完全的 SaaS 化产品,为企业带来更加便捷的数据分析服务。”

SelectDB Cloud 技术内核与解决方案

在演讲中,SelectDB 的技术副总裁肖康深入解析了 SelectDB Cloud 五大特性——极致性价比、融合统一、简单易用、企业特性、开源开放的技术实现;同时,他还为大家详细阐述了 SelectDB 站在业务视角发布的四大解决方案,并通过与传统方案的对比展示了真实应用场景下 SelectDB Cloud 方案带来的提升与收获。

在介绍 SelectDB 产品特色时,肖康表示:“对性能的追求是 SelectDB 从一而终的追求。在性能方面, SelectDB 取得了不俗的成绩。” 从数据来看,SelectDB Cloud 在单表聚合场景和多表关联场景下都表现出了优于同类知名品牌的成绩。——

  • 单表聚合场景性能:SelectDB Cloud 是 ClickHouse 的3.4倍;Presto 的92倍;Snowflake 的6倍。
  • 多表关联场景:SelectDB Cloud 是 Redshift 的1.5倍;ClickHouse 的49倍;Snowflake 的2.5倍。

综合对比之下,SelectDB 的性能可达到同类产品的1.5倍甚至更高。而在过去的一年中, SelectDB 通过其商业化产品和开源版本服务了国内来自不同行业的企业用户,包括海程邦达、云积分、360数科、橙联股份、同程数科等,并为他们分别带来了超94%—99%的极致性能提升体验。

同时,基于创新研发的存算分离架构、弹性扩容机制以及数据对象存储的方式,SelectDB Cloud 实现了超低资源成本的优势,通过以往的用户实践数据显示,SelectDB Cloud 的成本仅为自有部署成本的1/2-1/5,成本降低可达50%以上。在一组真实的客户场景中(3个节点 5TB 数据,早晚需扩容2节点4小时),SelectDB 展现出了它极致的成本优势:对比之下,客户采用 EMR 托管 Doris 和购买 ECS 自建 Doris 的两种方式,成本消耗分别为为40万/年及36万/年,而采用 SelectDB Cloud 成本仅需17万/年

目前,SelectDB Cloud 已通过阿里云平台上线,为用户提供多样化的弹性计费模式,支持按量支付、月包、年包混合的灵活搭配使用。

在解决方案上,SelectDB 面向内部的现代化数据平台、报表与分析、用户画像与行为分析和日志存储与分析四个场景推出现代化的方案,在各个场景均取得了优于原方案的效果提升。

四大解决方案具体收益:

  • 面向内部的现代化数据平台:复杂性降低,管理使用成本降低;平台的经济性提升,提供了极高的性价比;多云可用。
  • 面向客户的报表与分析:报表场景实现上万高并发;查询速度快,能够做到毫秒级别响应;实现数据流延时低,数据可见性最快可以做到秒级别;数据可靠,不丢不重。基于 SelectDB Cloud 的方案,某用户的广告业务场景,实现了上万 QPS 的高并发,查询延时99分位200ms以内,每天新增数十亿条记录。
  • 用户画像与行为分析解决方案:经过实践得出,SelectDB Cloud 可以做到行为分析在3000亿活跃数据的场景下,平均延迟小于10s,P95延迟在20s左右;用户画像在千亿数据下实现10个标签秒级人群预估和圈选,100个标签10秒级。
  • 日志存储和分析解决方案:SelectDB Cloud 方案的综合能力表现十分优异,相比传统的方案能够达到4.2倍的写入性能提升,只占用1/5的磁盘空间,2.3倍的查询性能提升。

阿里云 OSS 企业级数据湖的构建之道

阿里云高级产品专家马骏(其冀)表示,阿里云过去几年支持了上万家客户的云上数据湖和数仓分析业务,在这个过程中,对象存储 OSS 一直紧跟技术发展和客户需求,从数据湖1.0逐渐演进到数据湖3.0,构建了文件对象融会贯通、冷热数据智能分层和云上云下数据互通的能力,进而满足如下几种核心诉求:

  • 存算分离:资源弹性扩展,按量付费
  • 一源多用:支撑多业务对数据同时查询分析
  • 安全可靠:数据不丢不错,权限管控和数据治理
  • 灵活分析:支持多元化计算引擎
  • 多级存储:通过生命周期管理来优化成本

具体来讲,如下的几大能力,可最大限度的满足云原生数仓或数据湖的构建,让客户无需锁定存储和计算资源,降低架构改造和底层资源的成本:

实现传统存算融合架构改造成存算分离架构:阿里云 OSS 构建了全面兼容 Hadoop 生态的能力,全兼容 HDFS 的协议接入,基于 Hadoop 的客户无需做改造适配,即可无缝迁移到 OSS 上。同时 OSS 将单个命名空间提升到50亿超大规模文件,10万 QPS 的元数据操作,满足当前乃至未来三到五年的性能需求。这样就可以保持架构的前瞻性,无需担心业务分区和性能扩展问题。

OSS 可实现多协议文件的访问,提高小文件处理性能:OSS 同高性能文件存储 CPFS 打通,在面相AI和HPC的场景下,提升小文件的处理性能。客户既能享受对象存储的低成本,同时面向高性能需求可以利用CPFS来承载,提供百TB280万IOPS的性能。该能力可降低95%的计算等待时间,实现POSIX/NFS多协议的支持。

实现数据智能分层,成本优化可以达到90%:OSS提供4种类型的存储类型,分别是标准型、低频访问型、归档型和冷归档型,覆盖数据全生命周期,用户可以根据按最后修改时间和最后访问时间制定生命周期策略,冷归档可提供最高分钟级别的取回能力。

多层级全场景的数据保护,保证数据不丢不错:作为存储的基础能力,提供了多种可靠性与可用性技术,如版本控制,本地冗余,同城冗余,跨区域复制,全链路校验与纠删码,进而实现99.995%的可用性SLA和12个9的可靠性。

阿里云OSS-HDFS技术与能力解析

阿里云资深技术专家梁明旭(旭一)就全托管的 OSS-HDFS 服务架构做了详细的介绍。该服务是在 OSS 标准存储服务之上建立了一个高可用的元数据服务,其可靠性同 OSS 存储本身相媲美;同时利用Master模块实现了多租户接入;另外由于在 OSS 接入层之下构建,因此可提供服务端的形态,对用户上层应用透明;通过客户端将元数据操作和数据持久化操作进行分离,从而使架构的扩展性得到保障;通过元数据加持能够和 HDFS 等文件系统的层级命名空间相匹配,可以更好的面相客户各种生态兼容。

OSS-HDFS 服务相对友商的存储服务提供了更全面的 Hadoop 生态支持,包括 ACL、Chesksum、Trash 回收站自动清理、快照、Kerberos与Range认证及安全、文件拼接等。这将大大降低客户从原先Hdaoop集群切换到 OSS-HDFS 的改造成本,最小化迁移过程中的应用侵入。同时数仓场景中,支持语义和操作,拓展属性,目录原子性、毫秒级别rename。而一般对象存储难以支持的flush、sync、truncate等操作均可以通过 OSS-HDFS 实现,这样只要客户的引擎支持 HDFS,就能完美适配。

相比于社区 HDFS,OSS 标准版就能够节省30%的成本,如果综合使用 OSS 的分层能力,成本还可以大幅降低到90%。在海量小文件超过10亿以上,社区版已经无法支持,但通过 OSS 依然能够支持且性能没有大幅衰减。在标准场景下,如 ETL 也有很多性能提升,在40万文件性能提升超过64%。

目前,SelectDB Cloud 已上线阿里云,通过与阿里云平台所提供的基础云服务能力深度适配,双方将共同为客户带来极致的大数据相关解决方案。

点击链接观看沙龙直播回放:https://yqh.aliyun.com/selectdb-salon

原文链接

本文为阿里云原创内容,未经允许不得转载。

以上是关于企业的数据存储处理与分析之道的主要内容,如果未能解决你的问题,请参考以下文章

框架梳理|企业大数据管理之道

红芯为企业数据安全与隐私保护提供解决之道

大数据与AI时代,企业爆发之道?Tesra超算网络保驾护航!

转载Airbnb 的核心日志系统架构及主要系统模块的设计之道

企业营销的内容之痛,腾讯云SaaS工具的破局之道

技术人生系列——传统集中式存储与云化分布式存储解析