火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅳ)
Posted 字节跳动数据平台
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅳ)相关的知识,希望对你有一定的参考价值。
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。白皮书简述了 ByteHouse 基于 ClickHouse 引擎的发展历程,首次详细展现 ByteHouse 的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型实战运用提供最新的参考和启迪。
以下为 ByteHouse 技术白皮书【数据导入导出】版块摘录。
技术白皮书(Ⅰ)(Ⅱ)(Ⅲ)精彩回顾:
https://xie.infoq.cn/article/5c9471c7adb58e4bb43b69c4d
https://xie.infoq.cn/article/086b4e706965a6bd81f6a6ff2
https://xie.infoq.cn/article/a0dceef1588fe6c58247d3b37
ByteHouse 数据导入导出
ByteHouse 包括一个数据导入导出(Data Express)模块,负责数据的导入导出工作。
Data Express 模块架构图
Data Express 为数据导入/导出作业提供工作流服务和快速配置模板,用户可以从提供的快速模板创建数据加载作业。
DataExpress 利用 Spark 来执行数据迁移任务。
主要模块:
-
JobServer
-
导入模板
-
导出模板
JobServer 管理所有用户创建的数据迁移作业,同时运行外部事件触发数据迁移任务。
启动任务时,JobServer 将相应的作业提交给 Spark 集群,并监控其执行情况。作业执行状态将保存在我们的元存储中,以供 Bytehouse 进一步分析。
ByteHouse 支持离线数据导入和实时数据导入。
离线导入
离线导入数据源:
-
Object Storage:S3、OSS、Minio
-
Hive (1.0+)
-
Apache Kafka /Confluent Cloud/AWS Kinesis
-
本地文件
-
RDS
离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景,根据是否对目标数据表进行分区,ByteHouse 提供了不同的加载模式:
-
全量加载:全量将用最新的数据替换全表数据。
-
增量加载:增量加载将根据其分区将新的数据添加到现有的目标数据表。ByteHouse 将替换现有分区,而非进行合并。
支持的文件类型
ByteHouse 的离线导入支持以下文件格式:
-
Delimited files (CSV, TSV, etc.)
-
Json (multiline)
-
Avro
-
Parquet
-
Excel (xls)
实时导入
ByteHouse 能够连接到 Kafka,并将数据持续传输到目标数据表中。与离线导入不同,Kafka 任务一旦启动将持续运行。ByteHouse 的 Kafka 导入任务能够提供 exactly-once 语义。您可以停止/恢复消费任务,ByteHouse 将记录 offset 信息,确保数据不会丢失。
支持的消息格式
ByteHouse 在流式导入中支持以下消息格式:
-
Protobuf
-
JSON
更多的导入数据源以及导出功能正在不断完善中。
点击链接,立即下载完整版白皮书
ByteHouse技术白皮书正式发布,云数仓核心技术能力首次全面解读(内附下载链接)
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。
在数字化浪潮下,伴随着公有云的广泛普及,生于云、长于云、基于云原生架构的数据仓库百花齐放,快速迭代。相比起传统数仓,云原生数据仓库凭借更灵活、更具弹性化的特性,以及有效降低资源、人力成本的能力,在云市场上受到越来越多的关注,逐渐成为企业数字化基础设施中的关键“底座”。
《火山引擎云原生数据仓库 ByteHouse 技术白皮书》简述了 ByteHouse 基于 ClickHouse 引擎的发展历程,首次详细展现 ByteHouse 的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型实战运用提供最新的参考和启迪。
三“高”一“低”:ByteHouse 核心技术能力全面解读
ClickHouse 作为近年来快速崛起的 OLAP 数据库管理系统,以其优异的查询性能引人瞩目, 在全球及国内众多大厂得到了大量的推广及应用。
云原生数据仓库 ByteHouse,经过多年字节跳动内部经验沉淀,对开源 ClickHouse 引擎实现了大量技术架构重构和优化,并通过火山引擎对外服务。在字节跳动内部,ByteHouse 部署规模已超过 1 万 8000 台,单集群超过 2400 台,经过数百个应用场景和数万用户锤炼,并在多个外部企业客户中得到推广应用。
《火山引擎云原生数据仓库 ByteHouse 技术白皮书》共分为五个章节,详细介绍了 ByteHouse 产品简介、技术趋势挑战、整体架构设计、核心技术解析、未来总结展望等技术内容。
本次发布的 ByteHouse 技术白皮书,在内容上进一步聚焦于 ByteHouse 自身先进技术及实力优势,深度剖析 ByteHouse 在企业级数据仓库场景下的业务需求和挑战;在整体架构及核心技术层面,完整呈现 ByteHouse 引擎不同层级及执行流程,详细解析元数据管理、自研表引擎、复杂查询执行模型等 ByteHouse 自研核心技术。
"高性能、高资源利用率、高稳定性、低运维成本"——是 ByteHouse 海量数据实时接入、无限扩展存储、实时合并计算和关联聚合查询等多个核心能力的最佳解读。
图:ByteHouse 适用场景
目前,ByteHouse 不断以字节和外部最佳实践输出给行业用户,帮助企业更好地构建交互式大数据分析平台和云原生数据仓库。中国地震台网中心、海王集团等已与火山引擎 ByteHouse 达成合作,率先通过海量数据实时分析的极速体验,辅助决策落地,加速业务洞察,实现自身数字化升级的进一步加速。
点击链接,立即下载完整白皮书
以上是关于火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅳ)的主要内容,如果未能解决你的问题,请参考以下文章
火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅴ)
火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0(中)
助力企业数据飞轮转起来!火山引擎云原生数仓ByteHouse全面大促中
ByteHouse技术白皮书正式发布,云数仓核心技术能力首次全面解读(内附下载链接)