新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

Posted 数栈DTinsight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本相关的知识,希望对你有一定的参考价值。

我们很高兴向大家宣布,2023年4月14日,Taier 正式发布 1.4 版本。自2022年2月份 Taier 正式开源以来,收到了很多开发者和行业用户的积极评价,在诸多生产环境中已得到充分应用。Taier 1.4版本正是吸收了各类实践经验及大家的建议,进行了此次迭代优化。

本次更新不仅包含了性能优化和稳定性的提升,还新增了各类任务类型、完善大量任务功能,优化使用场景,持续增强开源产品化技术能力和应用能力。

Taier 是一款好用又强大的大数据分布式可视化的 DAG 任务调度系统,旨在降低 ETL 开发成本、提高大数据平台稳定性。它让大数据开发人员可以在 Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。

截至目前(2023 年 4 月 17 日),Taier 在 GitHub 的 Star 数已经突破 1.1 k,并拥有37名社区贡献者,我们在此对所有参与到 Taier 项目及社区建设的朋友们表达由衷的感谢。

目前新版本已在 Github 与 Gitee 上线,欢迎大家前往体验。

Github:

https://github.com/DTStack/Taier

Gitee:

https://gitee.com/dtstack_dev_0/taier

社区官网:

https://dtstack.github.io/Taier/

Taier 1.4 版本更新亮点

新增任务类型

· 新增 DataX 组件,在无 Hadoop 环境的情况下,Taier 可以通过执行 DataX 的任务来实现异构数据源之间高速稳定的数据同步的能力,增强 Taier 在单机模式下的基础功能。

· 新增 Greenplum、GaussDB、MySQL、Postgresql、Sqlserver、TiDB、Vertica、Maxcompute 等任务类型,完善 Taier 相关 SQL 任务类型。

· 新增 Hadoop MR 任务类型,可以通过自行编写 Map/Reduce 的代码,来执行对应的数据集的处理。

完善任务功能

· Script 组件新增 Standalone 模式, 支持 Python、Shell 任务本地执行,移除脚本任务对 Hadoop 环境的强依赖。

· 数据同步任务支持 Hive3 的数据源向导模式配置。

· HiveSQL、Spark SQL 的临时查询表支持定时清理。

优化使用场景

· 兼容 Taier 在 Window 环境下部署运行的环境问题。

· 优化 Taier 部分元数据表结构信息、完善表结构备注信息。

· 优化控制台组件配置参数信息,移除环境相关参数信息,Spark 组件支持自动上传 SqlProxy 包,减少组件配置依赖。

接下来

Taier 1.4 版本的发布是又一个全新的开始,开发团队不会停下脚步,未来将根据用户反馈加速迭代持续优化,完善 Taier 的功能和文档,满足用户更多场景的使用,推进国内开源生态的发展。

Taier 此前的成绩离不开每一位参与者的贡献与支持,踏上这个新的起点,Taier 的未来也仍需大家共同努力,让 Taier 朝着好用又强大的 DAG 任务调度系统的目标继续前进。
《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

开源大数据:Apache DolphinScheduler

Apache DolphinScheduler 分布式易扩展的可视化DAG工作流任务调度系统

Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用

Apache DolphinScheduler 架构

Apache DolphinScheduler 特性

  • 以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态
  • 支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Process、Procedure等
  • 支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill任务等操作
  • 支持工作流优先级、任务优先级及任务的故障转移及任务超时告警/失败
  • 支持工作流全局参数及节点自定义参数设置
  • 支持资源文件的在线上传/下载,管理等,支持在线文件创建、编辑
  • 支持任务日志在线查看及滚动、在线下载日志等
  • 实现集群HA,通过Zookeeper实现Master集群和Worker集群去中心化
  • 支持对Master/Worker cpu load,memory,cpu在线查看
  • 支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计
  • 支持补数
  • 支持多租户
  • 支持国际化
  • 还有更多等待伙伴们探索

Apache DolphinScheduler 启动流程活动

DolphinScheduler 界面图

home page

以上是关于新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本的主要内容,如果未能解决你的问题,请参考以下文章

工作流任务调度系统--DolphinSchedule-1.3.6 window 安装配置

大数据调度平台Airflow:什么是Airflow

用图带你了解大数据框架架构之DophinScheduler

Apache DolphinScheduler征稿-DolphinScheduler的入门级教程及案例

Apache DolphinScheduler征稿-DolphinScheduler的入门级教程及案例

开源交流丨任务or实例 详解大数据DAG调度系统Taier任务调度