Oracle CloudWorld 2022:重磅推出MySQL湖仓产品-MySQL HeatWave Lakehouse

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Oracle CloudWorld 2022:重磅推出MySQL湖仓产品-MySQL HeatWave Lakehouse相关的知识,希望对你有一定的参考价值。

     mysql HeatWave 是目前唯一一个在单个 MySQL 数据库中融合了 OLTP、OLAP、机器学习和机器学习自动化(Autopilot)的云数据库服务。

Oracle 在今年的 Cloud World 大会上宣布推出了一个数据库湖仓产品 - MySQL HeatWave Lakehouse。这个产品可以使客户直接处理和查询对象存储中数百 TB 以各种文件格式存储的数据,包括 CSV,Parquet,以及 AWS Aurora 和 Redshift 的备份。以下是 MySQL HeatWave Lakehouse 的架构图。

 

Oracle

 

MySQL HeatWave Lakehouse 是 MySQL HeatWave 产品组合的最新成员。

MySQL HeatWave 是目前唯一一个在单个 MySQL 数据库中融合了 OLTP、OLAP、机器学习和机器学习自动化(Autopilot)的云数据库服务。

MySQL HeatWave Lakehouse 采用大规模并行横向扩展 MySQL HeatWave 架构,在查询和数据加载方面提供了明显优于竞争对手的性能。此外,Oracle 还宣布了新的 MySQL Autopilot 功能,可提高性能并使 MySQL HeatWave Lakehouse 易于使用。MySQL HeatWave Lakehouse 现在提供 Beta 版供客户试用,并计划在 2023 年第一季度全面上市。

Oracle 首席企业架构师 Edward Screven 表示:“MySQL HeatWave 是多年研究和开发的成果,我们正在将其转化为突破性创新,以应对所有 MySQL 客户面临的更大挑战。事实上,MySQL HeatWave Lakehouse 是今年 MySQL HeatWave 的第三个重大发布。存储在数据库之外的数据有了巨大增长,有了 MySQL HeatWave Lakehouse,客户可以充分利用 HeatWave 的优势,处理对象存储中的数据。MySQL HeatWave 目前在多个云上提供一项集成服务,用于事务处理、跨数据仓库和数据湖的分析,以及无需 ETL 的机器学习。这一组合有助于在性能、自动化和成本方面实现显著改进,也进一步拉开了 MySQL HeatWave 与其他云数据库服务的距离。”

AMD 首席技术官兼执行副总裁 Mark Papermaster 表示:“ 我们很高兴能够继续与 Oracle 开展合作,并支持其新的 MySQL HeatWave Lakehouse 产品。该产品经过优化,可在 AMD EPYC 驱动的 Oracle 云实例上运行,并利用我们处理器中的最新创新。AMD 和Oracle工程团队共同努力,打造了一个令人印象深刻的 MySQL 解决方案,该解决方案可以在单个 MySQL 数据库中为事务处理、分析、机器学习和基于机器学习的自动化提供出色的可扩展性和性能。”

Oracle 还发布了新的 Lakehouse 基准测试,并为 MySQL HeatWave Lakehouse 和 MySQL Autopilot 引入了多项创新功能。

基准测试

基于完全透明、公开可用的 400 TB TPC-H*测试集,主要进行了以下两方面的测试:查询性能和数据加载性能。

查询性能

MySQL HeatWave Lakehouse 的查询速度比 Snowflake 快 17 倍,比 Redshift 快 6 倍。

 

Oracle

数据加载性能

将数据从对象存储加载到数据库中,MySQL HeatWave Lakehouse 的加载速度比 Redshift 快 8 倍,比 Snowflake 快 2.7 倍。

Oracle

所有这些基准测试脚本都放到了 GitHub (https://github.com/oracle/heatwave-tpch)上,供客户测试。

Futurum Research 高级分析师兼研究总监 Ron Westfall 表示:“MySQL HeatWave Lakehouse 以极快的速度向之前未知的 400 TB 云数据库基准测试领域发起了一场竞争。” “MySQL HeatWave Lakehouse 是 HeatWave 在处理能力和计算能力方面的一次飞跃:从 32TB 和 64 个节点到 400TB 和 512 个节点,性能和价格都轻松击败了 Amazon Redshift 和 Snowflake。同时,云数据库竞争对手尚未对 MySQL HeatWave 的数据库内融合和多云存在做出反应。他们该如何应对 400 TB MySQL HeatWave Lakehouse 呢?”

MySQL HeatWave Lakehouse 的创新功能

  • 更大数据量,标准 MySQL 语法:客户可以通过 MySQL HeatWave Lakehouse 查询多达 400 TB 的数据,HeatWaw 集群可扩展到 512 个节点。客户可使用标准的 MySQL 语法查询数据。
  • 相同的查询性能和压缩比:MySQL HeatWave 为存储在 MySQL 数据库或对象存储中的数据提供相同的查询性能,10 TB 和 30 TB TPC-H 基准测试结果证明了这一点。此外,实现的压缩比和每个节点可以处理的数据量也是相同的。
  • 支持多种文件格式:借助 MySQL HeatWave Lakehouse,客户可以加载和处理以各种文件格式存储的数据,包括 CSV,Parquet,以及 AWS Aurora 和 Redshift 的备份。这使得客户能够充分利用 MySQL HeatWave 的优势,即使他们的数据没有存储在 MySQL 数据库中。无论数据使用何种文件格式存储,客户始终可获得稳定的查询性能。
  • 支持将对象存储加载后的的数据和 MySQL 中的数据进行关联查询:使用 MySQL HeatWave Lakehouse,客户可以查询存储在 MySQL 数据库中的 OLTP 数据,并将其与存储在对象存储中的数据进行关联查询。对 OLTP 数据所做的任何更改都会实时更新,并反映在查询结果中。

面向 MySQL HeatWave Lakehouse 的新的 MySQL Autopilot 功能

MySQL Autopilot 为 MySQL HeatWave 提供基于机器学习的自动化功能。多项现有的 MySQL Autopilot 功能(如自动配置和自动改进查询计划)针对 MySQL HeatWave Lakehouse 进行了增强,可进一步降低数据库管理开销并提高性能。此外,MySQL HeatWave Lakehouse 还提供了很多新的 MySQL Autopilot 功能。

  • 自动模式推断:Autopilot 可自动推断文件数据的数据类型。因此,客户无需手动为 MySQL HeatWave Lakehouse 查询的每个新文件指定映射,从而节省时间和精力。
  • 自适应数据采样:Autopilot 可智能地对对象存储中的文件进行采样,只需访问很少的数据就能收集准确的统计数据。MySQL HeatWave 会将这些统计信息用来生成和改进查询计划、确定最佳模式映射以及用于其他用途等。
  • 自动加载:Autopilot 会分析数据以预测其加载到 MySQL HeatWave 所需的时间,确定数据类型的映射,并自动生成加载脚本。用户不必手动指定文件到数据库模式和表的映射。
  • 自适应数据流:MySQL HeatWave Lakehouse 可动态适应底层对象存储的性能。因此,MySQL HeatWave 可充分利用底层云基础设施的性能,从而提高整体性能、性价比和可用性。

 

新的 MySQL Autopilot 功能

上述功能是专为 MySQL HeatWave Lakehouse 设计的。除此之外,MySQL Autopilot 还新增了以下功能:

  • 自动预测实例的最佳规格:Autopilot 会基于实例的实际负载推荐最佳规格。有了这个功能,我们可以在满足业务正常需求的情况下,选择最小配置的规格实例,进而有效降低数据库的成本。

Oracle

  • 自动线程池:自动线程池能感知工作负载。在高并发场景,会智能地对传入的事务进行排队,以避免因等待事务过多而导致的资源争用。这样即使在高并发场景,数据库的吞吐也能保持在一个很稳定的状态。

Oracle

 

MySQL HeatWave ML 的新功能

MySQL HeatWave ML(机器学习)是 HeatWave 中内置的一个功能,它将 ML 的生命周期完全自动化,并将所有经过训练的模型存储在 MySQL 数据库中,而无需将数据或模型移动到其他机器学习工具或服务中。对于客户来说,通过 SQL 就能进行数据分析和预测,大大降低了机器学习的使用门槛。不仅如此,HeatWave ML 训练的所有模型都是可解释的。 HeatWave ML 提供预测并解释结果,提高可靠性、公平性、信任度和合规性。 例如,如果客户申请贷款或信用卡被拒,可以给出具体的原因。此外,这个功能是完全免费的。下面是 MySQL HeatWave ML 新增的新功能:

  • 支持时间序列预测:用户可以在单列时间序列数据上自动训练和调整预测模型,从而使他们能够预测该变量的未来值。
  • 可以自定义机器学习的各个阶段:包括算法的选择、特征选择、评分指标和解释技术。
  • 可以自定义机器学习模型:允许客户将自定义的机器学习模型导入 HeatWave。

多云部署

MySQL HeatWave 现已支持多个云平台,包括 Oracle 云基础设施(Oracle Cloud Infrastructure, OCI)、AWS 和 Microsoft Azure。对于无法将数据库工作负载迁移到公有云的企业,MySQL HeatWave 可作为 Oracle 专有云本地化解决方案 (Oracle Dedicated Region Cloud@Customer) 的一部分进行本地部署。客户还可以将数据从本地 MySQL 应用复制到 AWS 或 OCI 上的 MySQL HeatWave 中,以获得近实时的分析。

Oracle

以上是关于Oracle CloudWorld 2022:重磅推出MySQL湖仓产品-MySQL HeatWave Lakehouse的主要内容,如果未能解决你的问题,请参考以下文章

开源“摩尔定律”即将打破,《2022开源大数据热力报告》重磅发布

开源“摩尔定律”即将打破,《2022开源大数据热力报告》重磅发布

重磅2022年通信行业白皮书汇总下载

重磅2022年通信行业白皮书汇总下载

重磅2022年通信行业白皮书汇总下载

2022版Win11重磅升级!