DataWorks 重点难点

Posted 2023-02-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了DataWorks 重点难点相关的知识，希望对你有一定的参考价值。

1 调度参数

参数类型	类型定义	参数名称	名称定义
内置参数	在代码中直接获取业务日期或定时时间	$bizdate	业务日期，格式为yyyymmdd。该参数的应用较为广泛，日常调度中默认任务预期运行时间的前一天为业务日期
		$cyctime	任务的定时时间，格式为yyyymmddhh24miss
		$gmtdate	当前日期，格式为yyyymmdd。该参数默认取当天日期，执行补数据操作时输入的日期为业务日期+1
		$bizmonth	业务月份，格式为yyyymm。如果业务日期的月份与当前月份一致，则业务日期月份。如果业务日期的月份与当前月份不一致，则bizmnotallow=业务日期月份。
		$jobid	任务所属的业务流程ID
		$nodeid	节点ID
		$taskid	节点产生的实例ID
自定义参数	支持您在代码中根据业务需求自定义变量名称，再通过调度配置 > 参数赋值区域，统一为代码中的变量赋值自定义的调度参数格式，从而动态获取不同格式的时间参数	$...	基于系统内置参数$bizdate，通过yyyy、yy、mm和dd自定义组合而生成的时间参数
		$[...]	基于系统内置参数$cyctime，通过yyyy、yy、mm、dd、hh24、mi和ss自定义组合而生成的时间参数
		常量	支持在赋值区域为变量赋值常量。例如，"abc"、1234

自定义参数$...，具体示例：

前/后N年$yyyy±N
前/后N月$yyyymm±N
前/后N周$yyyymmdd±7*N
前/后N天$yyyy±N
年月日加/减N天$yyyy±N
加/减N年（yyyy格式）$yyyy±N
加/减N年（yy格式）$yy±N
业务月第一天$yyyymm01
业务月上月第一天$yyyymm-101

其中：

yyyy：表示4位的年份，取值为$bizdate的年份。
yy：表示2位的年份，取值为$bizdate的年份。
mm：表示月份，取值为$bizdate的月份。
dd：表示天，取值为$bizdate的天。

自定义参数$[...]，具体示例：

前/后N年$[add_months(yyyymmdd±12*N)]
前/后N月$[add_months(yyyymm±N]
前/后N周$[yyyymmdd±7*N]
前/后N天$[yyyymmdd±N]
前/后N小时$[自定义时间格式±N/24]
前/后N分钟$[自定义时间格式±N/24/60]

其中：

yyyy：表示4位的年份，取值为$cyctime的年份。
yy：表示2位的年份，取值为$cyctime的年份。
mm：表示月份，取值为$cyctime的月份。
dd：表示天，取值为$cyctime的天。
hh24：表示小时（12进制使用hh），取值为$cyctime的小时。
ss：表示秒，取值为$cyctime的秒。
mi：表示分钟，取值为$cyctime的分钟。

具体细节请参见阿里云官方文档调度配置

2 MaxCompute客户端-odpscmd

该客户端的主要功能是在于弥补网页端的不足之处，因为安全性等因素，网页端是限制上传（超过30MB的文件）和下载（超过1W条记录）的，因此通过该客户端来进行下载和上传大量数据的功能。

2.1 odpscmd客户端下载

下载需要在github上下载，有的时候可能会登录不上或者下载很慢的情况，点击github下载地址 ,或者使用本地已下载版本，点击odps客户端

2.2 odpscmd安装包

解压下载的安装包文件，得到bin、conf、lib和plugins文件夹。

2.3 odpscmd安装包

进入conf文件夹，配置odps_config.ini文件。odps_config.ini文件内容如下：

project_name=
access_id=
access_key=
end_point=
log_view_host=
https_check=
# confirm threshold for query input size(unit: GB)
data_size_cnotallow=
# this url is for odpscmd update
update_url=
# download sql results by instance tunnel
use_instance_tunnel=
# the max records when download sql results by instance tunnel
instance_tunnel_max_record=
# IMPORTANT:
#   If leaving tunnel_endpoint untouched, console will try to automatically get one from odps service, which might charge networking fees in some cases.
#   Please refer to Endpoint
# tunnel_endpoint=

# use set.<key>=
# e.g. set.odps.sql.select.output.format=

odps_config.ini文件中使用井号（#）作为注释。参数详细信息如下。

参数	是否必填	描述	示例
project_name	是	访问的目标MaxCompute项目名称。如果您创建了标准模式的工作空间，在配置project_name时，请注意区分生产环境与开发环境（_dev）的项目名称，请参见简单模式和标准模式的区别。您可以登录MaxCompute控制台，在项目管理页签获取MaxCompute项目名称。	doc_test_dev
access_id	是	阿里云账号或RAM用户的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。	无
access_key	是	AccessKey ID对应的AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey Secret。	无
end_point	是	MaxCompute服务的连接地址。您需要根据创建MaxCompute项目时选择的地域以及网络连接方式配置Endpoint。各地域及网络对应的Endpoint值，请参见Endpoint。	http://service.cn-hangzhou.maxcompute.aliyun.com/api
log_view_host	否	Logview地址。您可以通过该地址查看作业的详细运行信息，并为报错处理提供依据。固定取值为：http://logview.odps.aliyun.com。	http://logview.odps.aliyun.com
https_check	否	是否开启HTTPS访问机制，对访问MaxCompute项目的请求进行加密。取值范围如下：True：采用HTTPS机制。False：采用HTTP机制。默认值为False。	TRUE
data_size_confirm	否	输入数据量的最大值，单位为GB。取值范围无限制。推荐设置为100 GB。	100
update_url	否	预留参数，暂无需关注	无
use_instance_tunnel	否	是否使用InstanceTunnel下载SQL执行结果。取值范围如下：True：使用InstanceTunnel下载SQL执行结果。False：不使用InstanceTunnel下载SQL执行结果。默认值为False。	TRUE
instance_tunnel_max_record	否	客户端返回的SQL执行结果的最大记录数。如果use_instance_tunnel值为True，需要配置该参数。最大值为10000。	10000
tunnel_endpoint	否	Tunnel服务的外网访问链接。如果您未配置Tunnel Endpoint，Tunnel会自动路由到MaxCompute服务所在网络对应的Tunnel Endpoint。如果您配置了Tunnel Endpoint，则以配置为准，不进行自动路由。各地域及网络对应的Tunnel Endpoint值，请参见Endpoint。	http://dt.cn-hangzhou.maxcompute.aliyun.com
set.<key>	否	设置MaxCompute项目的属性。	et.odps.sql.decimal.odps2=true

2.4 运行odpscmd客户端

在odps安装目录下，如下图：
DataWorks
第一种运行方式：双击运行.bat文件即可

建议:将此bat文件发送到桌面，这样以后直接运行桌面的快捷键即可。

，即可进入到指定的数仓project目录下。

建议:通过此方式进行执行脚本。

2.5 odpscmd 最佳实践

下面主要介绍两种脚本，大家在使用的时候直接根据自己的目的性进行修改即可。
上传数据(Upload)

# 针对无分区表的上传情况：
tunnel upload D:\\myfiles\\temp\\mytest.csv yht_dw_dev.t_mytable -ow true -charset gbk
# -ow 表示覆盖写入
# -charset 表示编码使用gbk方式，中文不会乱码

# 针对无分区表的上传情况：
tunnel upload D:\\myfiles\\temp\\mytest.csv yht_dw_dev.t_mytable\\pt="2022-07-06" -ow true -charset gbk

下载数据(Download)

# 对于无分区的表的数据的下载
tunnel download yht_dw_dev.t_billing_info -cf=true D:\\myfiles\\temp\\hangzhou_billing_info.csv
# -cf 表示下载的文件格式为csv，如果不指定，默认为txt格式

# 对于有分区的表的数据的下载
# -- 将test_project.test_table表（二级分区表）中的数据下载到test_table.txt文件中。
tunnel download  test_project.test_table/p1="b1",p2="b2"  test_table.txt;

具体细节请参见阿里云官方文档 MaxCompute客户端安装(odpscmd)
具体细节请参见阿里云官方文档 Tunnel命令上传下载数据(odpscmd)

3 DataWorks调度配置解析

3.1 调度基本介绍

调度规则

首先满足依赖关系：即上游节点必须完成，才能调度下游节点；其次，判断定时时间是否已经到了，如果到了，立即执行；如果没有到，等待时间。

依赖关系

依赖关系是描述两个或多个节点之间的语义连接关系，其中上游节点的状态将影响其他下游节点的运行状态，反之，则不成立。

依赖关系细节
DataWorks

当任务对之前的周期有依赖的时候，可以勾选依赖上一周期，然后根据自己的要求选择具体的依赖项。
跨周期和跨版本，版本可以理解为一个业务日期，如果今天的任务依赖昨天任务即跨版本，今天的多个周期之间互相依赖，即跨周期。需要注意的是跨周期依赖不能指定具体哪个周期，只能依赖上一个周期！
本节点：即为自依赖，等待上一周期运行成功后才可执行
一级子节点：依赖第一层子任务的上一个周期
其他节点：可以选择本project或者其他project的节点作为依赖，即等待自定义节点上一周期运行成功后，才可执行。