高性能分析数据库 Impala 升级为 Apache 顶级项目

Posted 2021-04-24 开源最前线

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了高性能分析数据库 Impala 升级为 Apache 顶级项目相关的知识，希望对你有一定的参考价值。

开源最前线（ID：OpenSourceTop）猿妹整编

综合自：https://github.com/GoogleCloudPlatform/container-diff

Apache 软件基金会宣布 Apache Impala 孵化成功，升级为顶级项目。

Cloudera Impala

授权协议：Apache

开发语言：Python

操作系统：跨平台

Github：https://github.com/apache/impala

Impala 简介

Impala 是一个高性能分析数据库，可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化，大规模分布式，大规模并行的 C ++ 查询引擎，可以分析，转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax)，这样在使用CDH产品时，批处理和实时查询的平台是统一的。

目前支持的文件格式是文本文件和SequenceFiles（可以压缩为Snappy、GZIP和BZIP，前者性能最好）。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。

Impala 提供：

● 在 Apache Hadoop 中查询大量数据（大数据）的能力；

● 集群环境中的分布式查询；

● 在不同组件之间共享数据文件的能力，无需复制或导出/导入步骤；

● 用于大数据处理和分析的单一系统。

Impala 特性：

● 最佳性能以及可扩展性。

● 支持存储在HDFS， Apache HBase和Amazon S3中的数据。

● 强大的SQL分析，包括窗口函数和子查询。

● 使用LLVM快速生成代码，生成针对每个单独查询专门定制的CPU高效代码。

● 支持最常用的Hadoop文件格式，包括 Apache Parquet项目。

● Apache许可，100％开源。

Impala 孵化成功

过去一年是 Apache Impala 孵化发展变化最大的一年。Impala 团队不仅继续努力不断扩大其规模和稳定性，而且还推出了一系列的关键功能，进一步巩固了 Impala 作为高性能商务智能(BI)和 SQL 分析的开放标准地位。对于云计算和混合部署而言，Impala 现在可以提供云端-本地部署弹性、灵活性，以及直接从 Amazon S3对象存储中(以及为未来一年制定的其他对象存储)读取/写入的能力。

随着 Apache Kudu 的 GA，用户现在可以使用 Impala 对接收到或更新的数据立即进行高性能分析。另外，也很容易将现有的商务智能(BI)工作负载从传统分析数据库或数据仓库迁移至由 Impala 构建的 Cloudera 分析数据库中，同时可以使用 Navigator Optimizer 优化其性能。而且如同以往一样，对于更大的并发性工作负载的性能改进仍然是全年工作的重中之重。

Impala 项目创始人 Marcel Kornacker 表示：“2011年，我们开始开发 Impala ，以便为用户提供最先进的开源 SQL 分析。 Apache 顶级项目的毕业典礼是对这个项目背后的优秀开发者社区的肯定。”

●本文编号100，以后想阅读这篇文章直接输入100即可

●输入m获取文章目录

↓↓↓ 点击"阅读原文" 进入GitHub详情页

以上是关于高性能分析数据库 Impala 升级为 Apache 顶级项目的主要内容，如果未能解决你的问题，请参考以下文章