dataworks的任务调度底层是啥

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了dataworks的任务调度底层是啥相关的知识,希望对你有一定的参考价值。

参考技术A 底层对接了 MaxCompute、E-MapReduce、CDH、Hologres、 AnalyticDB、实时计算 Flink 版等大数据引擎,
让多种计算引擎的数据开发治理工作都可 以在同一个平台一站式的完成。

阿里云DataWorks学习之平台实践

🍒在上一章中,我们介绍了DataWorks的基本组成结构,其实和我在滴滴实习时候的数梦如出一辙,但是很多其他同学可能没有接触过这一类的产品,这篇博客我将在DataWorks上通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节,实现完整的数据处理流程。 对往期内容感兴趣的同学可以查看下面的内容👇:

🍊本文主要是通过实验来看看DataWorks是如何处理数据的,各种功能的说明都将以实验步骤的形式展现给大家。模拟Mysql数据库为生产系统,实现从生产系统抽取数据到MaxCompute中,进行数据自动化分析处理。

目录

1. 环境准备

启动DataWorks环境:

进入数据开发:

2. 数据同步

2.1 创建数据库

  1. 选择RDS(分布式Mysql):

  1. 找到创建的实例:

  1. 创建数据库:(名字随便)

  1. 创建数据库账号:(用户名和名字符合要求,一定要记住呀!)


创建成功:

  1. 登录数据库:

2.2 上传数据到数据库

  1. 上一节我们创建了数据库,但里面没有表和数据,所以我们在数据库里创建数据表:

  1. 上传本地数据:

  1. 任务调度选择执行变更


执行成功

  1. 查看数据库中的数据:

2.3 ODPS中添加RDS数据源

这一部分是在大数据环境中配置外部数据源。

  1. 在DataWorks中点击数据集成:

  1. 新增数据源

  1. 选择我们的mysql

  1. 连接数据源:


连接成功:

2.4 同步RDS数据到ODPS

数据源配置好了,然后需要将数据导入到DataWorks中。

  1. DataWork中新建业务流程

  1. 业务流程命名:

  1. 点击离线同步

  1. 双击节点,进行数据同步设置。
  • 设置数据来源,选择MySQL库,rds_lab数据源,t_dml_data表。
  • 设置数据去向,选择ODPS库,odps_first数据源,点击一键生成目标表。

  • 字段映射:

  • 设置通道控制信息:

  • 设置调度资源配置

  • 设置完保存,记得一定要保存。

  • 同步数据,设置完成后,“提交”业务流程。

  • 提交成功后点击运行:

  • 执行成功:

  1. 可以预览数据表:

3. 数据开发

本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。

3.1 创建开发的表

  1. 进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;

  1. 输入节点名字,提交:

  1. 我们创建一张分区表

  1. 创建成功后,在公共表中可以找到:

3.2 新建业务流程

  1. 进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;

  1. 新建虚拟节点:打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。

  • 节点命名

  1. 在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。

  1. 双击数据节点,编辑SQL语句, 点击“保存”。

  1. 设置依赖关系

  1. 节点间通过拖拽连线形成上下游依赖关系。

  1. 提交业务流程

  • 提交成功

  1. 右击节点查看属性

4. 任务运维

4.1 打开运维中心

  1. DataWorks的右上角‘运维中心’

4.2 运维中心功能

  1. 运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控五大模块。


任务列表分周期任务和手动任务。

  • 周期任务:调度系统按照调度配置自动定时执行的任务。

  • 手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。

  1. 选择左侧菜单栏中的“周期任务运维“->“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应操作。

4.3 智能监控模块

智能监控模块在如下位置:

  1. 智能监控监控规则

5. 数据管理

  1. 这部分主要是在数据地图中实现

  1. 然后查找你需要的表

  1. 数据地图模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

6. 总结

在这一部分中,主要实现的是数据源的接入、简单的数据开发、调度任务的发布、数据地图的查看这一系列流程,博主在滴滴实习时,和这套流程一模一样,当做是又开发了一个项目吧,哈哈哈!区别在于,以前加入项目,创建表啥的都需要主管审批,但做这次的实验,权限控制需要自己来设置,也算是体验了一把拥有高级权限的感觉,大家可以看着我的过程慢慢理解!

7. 参考资料

《阿里云全球培训中心》
《阿里云DataWorks使用手册》

以上是关于dataworks的任务调度底层是啥的主要内容,如果未能解决你的问题,请参考以下文章

SQLMaxComputer开发工具——DataWorks使用小结

dataWorks定时调度传参

dataWorks定时调度传参

DataWorks 重点难点

进程调度是的任务是啥

设计和构建具有大量重复任务的任务调度系统的好方法是啥?