DolphinScheduler 1.3元数据文档

Posted DATA数据猿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DolphinScheduler 1.3元数据文档相关的知识,希望对你有一定的参考价值。

😋DolphinScheduler 1.3元数据文档

👊表概览

表名表信息
t_ds_access_token访问ds后端的token
t_ds_alert告警信息
t_ds_alertgroup告警组
t_ds_command执行命令
t_ds_datasource数据源
t_ds_error_command错误命令
t_ds_process_definition流程定义
t_ds_process_instance流程实例
t_ds_project项目
t_ds_queue队列
t_ds_relation_datasource_user用户关联数据源
t_ds_relation_process_instance子流程
t_ds_relation_project_user用户关联项目
t_ds_relation_resources_user用户关联资源
t_ds_relation_udfs_user用户关联UDF函数
t_ds_relation_user_alertgroup用户关联告警组
t_ds_resources资源文件
t_ds_schedules流程定时调度
t_ds_session用户登录的session
t_ds_task_instance任务实例
t_ds_tenant租户
t_ds_udfsUDF资源
t_ds_user用户
t_ds_versionds版本信息

👊用户 队列 数据源

  • 一个租户下可以有多个用户
  • t_ds_user中的queue字段存储的是队列表中的queue_name信息,t_ds_tenant下存的是queue_id,在流程定义执行过程中,用户队列优先级最高,用户队列为空则采用租户队列
  • t_ds_datasource表中的user_id字段表示创建该数据源的用户,t_ds_relation_datasource_user中的user_id表示,对数据源有权限的用户

👊项目 资源 告警

  • 一个用户可以有多个项目,用户项目授权通过t_ds_relation_project_user表完成project_id和user_id的关系绑定
  • t_ds_projcet表中的user_id表示创建该项目的用户,t_ds_relation_project_user表中的user_id表示对项目有权限的用户
  • t_ds_resources表中的user_id表示创建该资源的用户,t_ds_relation_resources_user中的user_id表示对资源有权限的用户
  • t_ds_udfs表中的user_id表示创建该UDF的用户,t_ds_relation_udfs_user表中的user_id表示对UDF有权限的用户

👊命令 流程 任务

  • 一个项目有多个流程定义,一个流程定义可以生成多个流程实例,一个流程实例可以生成多个任务实例
  • t_ds_schedulers表存放流程定义的定时调度信息
  • t_ds_relation_process_instance表存放的数据用于处理流程定义中含有子流程的情况,parent_process_instance_id表示含有子流程的主流程实例id,process_instance_id表示子流程实例的id,parent_task_instance_id表示子流程节点的任务实例id,流程实例表和任务实例表分别对应t_ds_process_instance表和t_ds_task_instance表

👊核心表Schema

🙇‍♀t_ds_process_definition

字段类型注释
idint主键
namevarchar流程定义名称
versionint流程定义版本
release_statetinyint流程定义的发布状态:0 未上线 1已上线
project_idint项目id
user_idint流程定义所属用户id
process_definition_jsonlongtext流程定义json串
descriptiontext流程定义描述
global_paramstext全局参数
flagtinyint流程是否可用:0 不可用,1 可用
locationstext节点坐标信息
connectstext节点连线信息
receiverstext收件人
receivers_cctext抄送人
create_timedatetime创建时间
timeoutint超时时间
tenant_idint租户id
update_timedatetime更新时间
modify_byvarchar修改用户
resource_idsvarchar资源id集

🙇‍♀t_ds_process_instance

字段类型注释
idint主键
namevarchar流程实例名称
process_definition_idint流程定义id
statetinyint流程实例状态:0 提交成功,1 正在运行,2 准备暂停,3 暂停,4 准备停止,5 停止,6 失败,7 成功,8 需要容错,9 kill,10 等待线程,11 等待依赖完成
recoverytinyint流程实例容错标识:0 正常,1 需要被容错重启
start_timedatetime流程实例开始时间
end_timedatetime流程实例结束时间
run_timesint流程实例运行次数
hostvarchar流程实例所在的机器
command_typetinyint命令类型:0 启动工作流,1 从当前节点开始执行,2 恢复被容错的工作流,3 恢复暂停流程,4 从失败节点开始执行,5 补数,6 调度,7 重跑,8 暂停,9 停止,10 恢复等待线程
command_paramtext命令的参数(json格式)
task_depend_typetinyint节点依赖类型:0 当前节点,1 向前执行,2 向后执行
max_try_timestinyint最大重试次数
failure_strategytinyint失败策略 0 失败后结束,1 失败后继续
warning_typetinyint告警类型:0 不发,1 流程成功发,2 流程失败发,3 成功失败都发
warning_group_idint告警组id
schedule_timedatetime预期运行时间
command_start_timedatetime开始命令时间
global_paramstext全局参数(固化流程定义的参数)
process_instance_jsonlongtext流程实例json(copy的流程定义的json)
flagtinyint是否可用,1 可用,0不可用
update_timetimestamp更新时间
is_sub_processint是否是子工作流 1 是,0 不是
executor_idint命令执行用户
locationstext节点坐标信息
connectstext节点连线信息
history_cmdtext历史命令,记录所有对流程实例的操作
dependence_schedule_timestext依赖节点的预估时间
process_instance_priorityint流程实例优先级:0 Highest,1 High,2 Medium,3 Low,4 Lowest
worker_groupvarchar任务指定运行的worker分组
timeoutint超时时间
tenant_idint租户id

🙇‍♀t_ds_task_instance

字段类型注释
idint主键
namevarchar任务名称
task_typevarchar任务类型
process_definition_idint流程定义id
process_instance_idint流程实例id
task_jsonlongtext任务节点json
statetinyint任务实例状态:0 提交成功,1 正在运行,2 准备暂停,3 暂停,4 准备停止,5 停止,6 失败,7 成功,8 需要容错,9 kill,10 等待线程,11 等待依赖完成
submit_timedatetime任务提交时间
start_timedatetime任务开始时间
end_timedatetime任务结束时间
hostvarchar执行任务的机器
execute_pathvarchar任务执行路径
log_pathvarchar任务日志路径
alert_flagtinyint是否告警
retry_timesint重试次数
pidint进程pid
app_linkvarcharyarn app id
flagtinyint是否可用:0 不可用,1 可用
retry_intervalint重试间隔
max_retry_timesint最大重试次数
task_instance_priorityint任务实例优先级:0 Highest,1 High,2 Medium,3 Low,4 Lowest
worker_groupvarchar任务指定运行的worker分组

🙇‍♀t_ds_schedules

字段类型注释
idint主键
process_definition_idint流程定义id
start_timedatetime调度开始时间
end_timedatetime调度结束时间
crontabvarcharcrontab 表达式
failure_strategytinyint失败策略: 0 结束,1 继续
user_idint用户id
release_statetinyint状态:0 未上线,1 上线
warning_typetinyint告警类型:0 不发,1 流程成功发,2 流程失败发,3 成功失败都发
warning_group_idint告警组id
process_instance_priorityint流程实例优先级:0 Highest,1 High,2 Medium,3 Low,4 Lowest
worker_groupvarchar任务指定运行的worker分组
create_timedatetime创建时间
update_timedatetime更新时间

🙇‍♀t_ds_command

字段类型注释
idint主键
command_typetinyint命令类型:0 启动工作流,1 从当前节点开始执行,2 恢复被容错的工作流,3 恢复暂停流程,4 从失败节点开始执行,5 补数,6 调度,7 重跑,8 暂停,9 停止,10 恢复等待线程
process_definition_idint流程定义id
command_paramtext命令的参数(json格式)
task_depend_typetinyint节点依赖类型:0 当前节点,1 向前执行,2 向后执行
failure_strategytinyint失败策略:0结束,1继续
warning_typetinyint告警类型:0 不发,1 流程成功发,2 流程失败发,3 成功失败都发
warning_group_idint告警组
schedule_timedatetime预期运行时间
start_timedatetime开始时间
executor_idint执行用户id
dependencevarchar依赖字段
update_timedatetime更新时间
process_instance_priorityint流程实例优先级:0 Highest,1 High,2 Medium,3 Low,4 Lowest
worker_groupvarchar任务指定运行的worker分组

以上是关于DolphinScheduler 1.3元数据文档的主要内容,如果未能解决你的问题,请参考以下文章

Apache DolphinScheduler 征稿 —开源大数据调度器Apache DolphinScheduler安装维护与实践

大数据技术之DolphinScheduler

使用DolphinScheduler调度Python任务

使用DolphinScheduler调度Python任务

DolphinScheduler 3.1.0 海豚集群部署配置

一文读懂,硬核 Apache DolphinScheduler3.0 源码解析