技术选型 - OLAP大数据技术哪家强？

Posted 2023-04-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了技术选型 - OLAP大数据技术哪家强？相关的知识，希望对你有一定的参考价值。

参考技术A

Lambda架构的核心理念是“流批一体化”，因为随着机器性能和数据框架的不断完善，用户其实不关心底层是如何运行的，批处理也好，流式处理也罢，能按照统一的模型返回结果就可以了，这就是Lambda架构诞生的原因。现在很多应用，例如Spark和Flink，都支持这种结构，也就是数据进入平台后，可以选择批处理运行，也可以选择流式处理运行，但不管怎样，一致性都是相同的。

Kylin

Kylin的主要特点是预计算，提前计算好各个cube，这样的优点是查询快速，秒级延迟；缺点也非常明显，灵活性不足，无法做一些探索式的，关联性的数据分析。

适合的场景也是比较固定的，场景清晰的地方。

ClickHouse

Clickhouse由俄罗斯yandex公司开发。专为在线数据分析而设计。

Clickhouse最大的特点首先是快 ，为了快采用了列式储存，列式储存更好的支持压缩，压缩后的数据传输量变小，所以更快；同时支持分片，支持分布式执行，支持SQL。

ClickHouse很轻量级，支持数据压缩和最终数据一致性，其数据量级在PB级别。

另外Clickhouse不是为关联分析而生，所以多表关联支持的不太好。

同样Clickhouse不能修改或者删除数据，仅能用于批量删除或修改。没有完整的事务支持，不支持二级索引等等，缺点也非常明显。

与Kylin相比ClickHouse更加的灵活，sql支持的更好，但是相比Kylin，ClickHouse不支持大并发，也就是不能很多访问同时在线。

总之ClickHouse用于在线数据分析，支持功能简单。CPU 利用率高，速度极快。最好的场景用于行为统计分析。

Hive

Hive这个工具，大家一定很熟悉，大数据仓库的首选工具。可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能。

主要功能是可以将sql语句转换为相对应的MapReduce任务进行运行，这样可能处理海量的数据批量，

Hive与HDFS结合紧密，在大数据开始初期，提供一种直接使用sql就能访问HDFS的方案，摆脱了写MapReduce任务的方式，极大的降低了大数据的门槛。

当然Hive的缺点非常明显，定义的是分钟级别的查询延迟，估计都是在比较理想的情况。 但是作为数据仓库的每日批量工具，的确是一个稳定合格的产品。

Presto

Presto极大的改进了Hive的查询速度，而且Presto 本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询，支持包括复杂查询、聚合、连接等等。

Presto没有使用MapReduce，它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中，这也是它的性能很高的一个主要原因。

Presto由于是基于内存的，缺点可能是多张大表关联操作时易引起内存溢出错误。

另外Presto不支持OLTP的场景，所以不要把Presto当做数据库来使用。

Presto相比ClickHouse优点主要是多表join效果好。相比ClickHouse的支持功能简单，场景支持单一，Presto支持复杂的查询，应用范围更广。

Impala

Impala是Cloudera 公司推出，提供对 HDFS、Hbase 数据的高性能、低延迟的交互式 SQL 查询功能。

Impala 使用 Hive的元数据, 完全在内存中计算。是CDH 平台首选的 PB 级大数据实时查询分析引擎。

Impala 的缺点也很明显，首先严重依赖Hive，而且稳定性也稍差，元数据需要单独的mysql/pgsql来存储，对数据源的支持比较少，很多nosql是不支持的。但是，估计是cloudera的国内市场推广做的不错，Impala在国内的市场不错。

SparkSQL

SparkSQL的前身是Shark，它将 SQL 查询与 Spark 程序无缝集成，可以将结构化数据作为 Spark 的 RDD 进行查询。

SparkSQL后续不再受限于Hive，只是兼容Hive。

SparkSQL提供了sql访问和API访问的接口。

支持访问各式各样的数据源，包括Hive, Avro, Parquet, ORC, JSON, and JDBC。

Drill

Drill好像国内使用的很少，根据定义，Drill是一个低延迟的分布式海量数据交互式查询引擎，支持多种数据源，包括hadoop，NoSQL存储等等。

除了支持多种的数据源，Drill跟BI工具集成比较好。

Druid

Druid是专为海量数据集上的做高性能 OLAP而设计的数据存储和分析系统。

Druid 的架构是 Lambda 架构，分成实时层和批处理层。

Druid的核心设计结合了数据仓库，时间序列数据库和搜索系统的思想，以创建一个统一的系统，用于针对各种用例的实时分析。Druid将这三个系统中每个系统的关键特征合并到其接收层，存储格式，查询层和核心体系结构中。

目前 Druid 的去重都是非精确的，Druid 适合处理星型模型的数据，不支持关联操作。也不支持数据的更新。

Druid最大的优点还是支持实时与查询功能，解约了很多开发工作。

Kudu

kudu是一套完全独立的分布式存储引擎，很多设计概念上借鉴了HBase，但是又跟HBase不同，不需要HDFS，通过raft做数据复制；分片策略支持keyrange和hash等多种。

数据格式在parquet基础上做了些修改，支持二级索引，更像一个列式存储，而不是HBase schema-free的kv方式。

kudu也是cloudera主导的项目，跟Impala结合比较好，通过impala可以支持update操作。

kudu相对于原有parquet和ORC格式主要还是做增量更新的。

Hbase

Hbase使用的很广,更多的是作为一个KV数据库来使用，查询的速度很快。

Hawq

Hawq是一个Hadoop原生大规模并行SQL分析引擎，Hawq采用 MPP 架构，改进了针对 Hadoop 的基于成本的查询优化器。

除了能高效处理本身的内部数据，还可通过 PXF 访问 HDFS、Hive、HBase、JSON 等外部数据源。HAWQ全面兼容 SQL 标准，还可用 SQL 完成简单的数据挖掘和机器学习。无论是功能特性，还是性能表现，HAWQ 都比较适用于构建 Hadoop 分析型数据仓库应用。

比MySQL快801倍，OLAP两大神器ClickHouse+Doris技术选型攻略分享

数字化时代，数据即价值。商战即信息战，如何从海量数据中提取精准的用户群体信息成为众多企业经营的重中之重，这就对开发工程师在速度和精准度方面的要求越来越高。

海量订单如何精准获取地域、时间、来源、渠道等多维度的信息

服务于业务，怎样及时快速地提取到正确而又清晰、完整的信息

海量评论如何进行好评、差评等个性化内容的占比分析

想要实现准实时数据分析，如何秒级获取查询结果

……

MySQL作为数据库的老大哥，面对海量数据，如果单独使用，往往无法满足千亿级企业的业务场景需求：

•大规模的数据导入会使MySQL读的性能大幅降低，甚至出现锁表的情况

•海量数据导入，MySQL的查询性能会大幅降低，页面打开缓慢甚至超时

•MySQL的单表存储数据有限，拆表、拆库、迁移数据等方式无法应对海量数据

而ClickHouse和Doris就是这些问题的完美终结者。

01

炙手可热的ClickHouse和Doris

通过实践应用，ClickHouse完美解决了MySQL的查询瓶颈，20亿行以下的数据量级查询，90%都可以在亚秒（1秒内）给到结果，并深受腾讯、快手、今日头条、携程等一线大厂的青睐。

据携程酒店大数据高级研发经理透漏：ClickHouse可以满足每天十多亿的数据更新和近百万次的数据查询，支撑app性能98.3%在1秒内返回结果，pc端在98.5%在3秒内返回结果，携程酒店智能平台80%以上的业务在19年的时候都已接入ClickHouse。

作为OLAP领域的后起之秀，Doris新近研发升级的DorisDB以极速著称，基于MPP架构，整合了Google Mesa（数据模型）、Apache Impala（MPP Query Engine）和Apache ORCFile （存储格式，编码和压缩）的技术，不仅能够支持MySQL语法，可以实现数据平滑迁移，还能轻松应对ClickHouse难以支撑的高并发业务场景。既能当超级创可贴以救场能手上线，也能独当一面大放异彩，现已在京东广告、美团外卖、作业帮、小米、搜狐等一线大厂实践应用。

（100M数据集跑分结果，1亿数据查询速度：ClickHouse比Vertica快5倍，比Hive快279倍，比MySQL快801倍！）

具体到落地执行，Doris在哪些场景会更加适用？ClickHouse的数据管理优势又是如何彰显的？部署的时候需要注意哪些关键点？如何和现有技术实现更好的融合？

为了帮助开发工程师提质增效，提升职场的核心竞争力，最大化地发挥ClickHouse和Doris的实用价值，由前58技术委员主席孙玄联手快狗打车CTO沈剑老师，结合10多年一线大厂经验，打造的《两大OLAP新秀谁更秀？ClickHouse和Doris深度大PK》精品在线专栏课即将开班，一门课程，三天时间（6月21日—6月23日 20:00-22:00）带你快速搞透OLAP两大黑马利器，切实落地玩转ClickHouse和Doris，实现向资深开发工程师的技能跃升。

原价 ¥499，限时 ¥0.99 立刻学习！

6月21日—6月23日

20:00—22:00

3天时间

名师大咖带你

玩转OLAP两大利器

????同时免费领

【10套私房干货视频合集】

和【阿里、字节必问面试题】

记得添加助教老师领取哦

仅前 50 人有效，先到先得！

特别提醒：一次报名，支持不限次数、不限日期的永久回看！

此外，为了回馈广大学员长期以来的关注和厚爱，奈学教育特此推出《Kafka消息引擎底层架构深度剖析》免费学的优惠福利！帮助你快速理解Kafka核心原理，深度认知Kafka服务端内核原理，吃透客户端高性能架构设计原理，掌握Kafka高性能的秘密。

购课特别福利一

原价99元

享受福利免费学！

联系助教老师可直接领取哦

购课特别福利二

02

我为什么推荐你学这门课

随着技术领域迭代升级的时间间隔不断缩短，广大开发工程师职场生存也面临着技术脱节的潜在危机，保持学习力，及时刷新武器装备库、不断从新技术中获取能量补给和技能提升变得尤为重要。

掌握OLAP领域ClickHouse和DorisDB的优势特性、吃透底层原理、学习整体架构、看懂核心源码，既能拓展自己的能力边界，大大提升技术层级，还能对今后的技术选型帮助极大。

现如今，广大技术人对它们的底层原理还处于一知半解的阶段，“知其然而不知其所以然”。

《两大OLAP新秀谁更秀？ClickHouse和Doris深度大PK》这门课程首次完整揭秘ClickHouse的核心特性，彻底揭秘ClickHouse和Doris的总架构体系、核心技术设计和运行全流程的机理，全面剖析ClickHouse和Doris在千亿级企业大数据业务场景下的应用实践，并且首次全方位深度对比ClickHouse和Doris孰优孰劣。