火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅳ）

Posted 2023-04-20 字节跳动数据平台

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅳ）相关的知识，希望对你有一定的参考价值。

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近日，《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。白皮书简述了 ByteHouse 基于 ClickHouse 引擎的发展历程，首次详细展现 ByteHouse 的整体架构设计及自研核心技术，为云原生数据仓库发展，及企业数字化转型实战运用提供最新的参考和启迪。

以下为 ByteHouse 技术白皮书【数据导入导出】版块摘录。

技术白皮书（Ⅰ）(Ⅱ)（Ⅲ）精彩回顾：

https://xie.infoq.cn/article/5c9471c7adb58e4bb43b69c4d

https://xie.infoq.cn/article/086b4e706965a6bd81f6a6ff2

https://xie.infoq.cn/article/a0dceef1588fe6c58247d3b37

ByteHouse 数据导入导出

ByteHouse 包括一个数据导入导出（Data Express）模块，负责数据的导入导出工作。

Data Express 模块架构图

Data Express 为数据导入/导出作业提供工作流服务和快速配置模板，用户可以从提供的快速模板创建数据加载作业。

DataExpress 利用 Spark 来执行数据迁移任务。

主要模块：

JobServer
导入模板
导出模板

JobServer 管理所有用户创建的数据迁移作业，同时运行外部事件触发数据迁移任务。

启动任务时，JobServer 将相应的作业提交给 Spark 集群，并监控其执行情况。作业执行状态将保存在我们的元存储中，以供 Bytehouse 进一步分析。

ByteHouse 支持离线数据导入和实时数据导入。

离线导入

离线导入数据源:

Object Storage：S3、OSS、Minio
Hive (1.0+)
Apache Kafka /Confluent Cloud/AWS Kinesis
本地文件
RDS

离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景，根据是否对目标数据表进行分区，ByteHouse 提供了不同的加载模式：

全量加载：全量将用最新的数据替换全表数据。
增量加载：增量加载将根据其分区将新的数据添加到现有的目标数据表。ByteHouse 将替换现有分区，而非进行合并。

支持的文件类型

ByteHouse 的离线导入支持以下文件格式：

Delimited files (CSV, TSV, etc.)
Json (multiline)
Avro
Parquet
Excel (xls)

实时导入

ByteHouse 能够连接到 Kafka，并将数据持续传输到目标数据表中。与离线导入不同，Kafka 任务一旦启动将持续运行。ByteHouse 的 Kafka 导入任务能够提供 exactly-once 语义。您可以停止/恢复消费任务，ByteHouse 将记录 offset 信息，确保数据不会丢失。

支持的消息格式

ByteHouse 在流式导入中支持以下消息格式：

Protobuf
JSON

更多的导入数据源以及导出功能正在不断完善中。

点击链接，立即下载完整版白皮书

ByteHouse技术白皮书正式发布，云数仓核心技术能力首次全面解读（内附下载链接）

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近日，《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。

在数字化浪潮下，伴随着公有云的广泛普及，生于云、长于云、基于云原生架构的数据仓库百花齐放，快速迭代。相比起传统数仓，云原生数据仓库凭借更灵活、更具弹性化的特性，以及有效降低资源、人力成本的能力，在云市场上受到越来越多的关注，逐渐成为企业数字化基础设施中的关键“底座”。

《火山引擎云原生数据仓库 ByteHouse 技术白皮书》简述了 ByteHouse 基于 ClickHouse 引擎的发展历程，首次详细展现 ByteHouse 的整体架构设计及自研核心技术，为云原生数据仓库发展，及企业数字化转型实战运用提供最新的参考和启迪。

三“高”一“低”：ByteHouse 核心技术能力全面解读

ClickHouse 作为近年来快速崛起的 OLAP 数据库管理系统，以其优异的查询性能引人瞩目，在全球及国内众多大厂得到了大量的推广及应用。

云原生数据仓库 ByteHouse，经过多年字节跳动内部经验沉淀，对开源 ClickHouse 引擎实现了大量技术架构重构和优化，并通过火山引擎对外服务。在字节跳动内部，ByteHouse 部署规模已超过 1 万 8000 台，单集群超过 2400 台，经过数百个应用场景和数万用户锤炼，并在多个外部企业客户中得到推广应用。

《火山引擎云原生数据仓库 ByteHouse 技术白皮书》共分为五个章节，详细介绍了 ByteHouse 产品简介、技术趋势挑战、整体架构设计、核心技术解析、未来总结展望等技术内容。

本次发布的 ByteHouse 技术白皮书，在内容上进一步聚焦于 ByteHouse 自身先进技术及实力优势，深度剖析 ByteHouse 在企业级数据仓库场景下的业务需求和挑战；在整体架构及核心技术层面，完整呈现 ByteHouse 引擎不同层级及执行流程，详细解析元数据管理、自研表引擎、复杂查询执行模型等 ByteHouse 自研核心技术。

"高性能、高资源利用率、高稳定性、低运维成本"——是 ByteHouse 海量数据实时接入、无限扩展存储、实时合并计算和关联聚合查询等多个核心能力的最佳解读。

图：ByteHouse 适用场景

目前，ByteHouse 不断以字节和外部最佳实践输出给行业用户，帮助企业更好地构建交互式大数据分析平台和云原生数据仓库。中国地震台网中心、海王集团等已与火山引擎 ByteHouse 达成合作，率先通过海量数据实时分析的极速体验，辅助决策落地，加速业务洞察，实现自身数字化升级的进一步加速。

点击链接，立即下载完整白皮书
以上是关于火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅳ）的主要内容，如果未能解决你的问题，请参考以下文章

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅴ）

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0（中）

助力企业数据飞轮转起来！火山引擎云原生数仓ByteHouse全面大促中

ByteHouse技术白皮书正式发布，云数仓核心技术能力首次全面解读（内附下载链接）

从 ClickHouse 到 ByteHouse：实时数据分析场景下的优化实践

火山引擎云原生 | 码出未来，向你致敬！