DataWorks 功能实践速览

Posted 阿里云云栖号

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DataWorks 功能实践速览相关的知识,希望对你有一定的参考价值。

简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!

功能推荐:独享数据集成资源组

如上期数据同步解决方案介绍,数据集成的批数据同步任务运行时,需要占用一定的计算资源,这些资源即资源组,通常先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器。

而进行数据同步时,可以根据实际情况规划使用哪种数据集成资源组,资源组规划的关键点包括连通性性能两方面。

以下就从数据集成资源组的类型与性能、网络连通性两方面,为您介绍数据集成资源组的详情:

Part1:数据集成资源组的类型与性能对比

DataWorks数据集成支持多种不同资源组:

  • 独享数据集成资源组:
    购买后可独占使用的资源组。在任务高并发执行且无法错峰运行,需要独享的资源组来保障数据快速、稳定地传输时,您可以选择独享资源组。
  • 自定义数据集成资源组:
    如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组。

以上两种数据集成资源组在应用上的能力对比如下表所示:

类别

独享资源组

自定义资源组

机器资源归属

由DataWorks维护,是自己的租户独享使用的计算资源。

由您自己维护,是属于您的IDC机器。

网络

支持VPC、公网和任意网络下的阿里云产品。

支持VPC、公网和任意网络下的阿里云产品。

收费方式

根据机器的规格,包年包月计费。

DataWorks版本按月使用收费。

支持的数据源

全部数据源

全部数据源

安全性

根据您自身机器所处的环境决定

任务执行的效率

指任务是否能够分到足够的计算资源,能否以最高性能运行。

根据您自身机器所处的环境决定

可靠性

指任务是否能够按时启动。执行任务时,网络资源是否被其它租户占用,导致任务不能按时产出结果。

根据您自身机器所处的环境决定

适用场景

大量、重要的生产级别的任务。

使用自定义资源组的场景如下:

  • 如果您自身已有计算资源,可以对接阿里云重复使用,无需重新购买。
  • 需要同步的数据源全部在IDC内。

推荐指数

★★★★★

非常建议您使用独享数据集成资源组来运行数据集成任务独享数据集成资源组的购买后,您需要完成网络配置和工作空间绑定,后续即可选择与数据源的网络连通方案进行连通配置了。在此之前,独享数据集成资源组的购买与基础配置的操作详情请参见新增和使用独享数据集成资源组

Part2:数据集成资源组的网络连通方案

进行数据同步时,需要根据数据库所在网络环境,通过对应的网络解决方案,实现对应类型资源组与数据库的网络连通。连通方案概览如下。

以下为您重点介绍独享数据集成资源组的网络连通方案详情,其他资源组类型的网络连通方案可进入帮助中心查看。

场景1:数据源具备访问公网的能力

如果数据源具备公网访问能力的话,那么数据源与资源组之间可以直接通过公网互访。

场景2:数据源在VPC网络中,且VPC和DataWorks在同一个地域

如果数据源在VPC网络中,且VPC和DataWorks在同一个地域,那可以将独享数据集成资源组绑定数据源所在VPC。同时需要关注,资源组与DataWorks是否在同一个可用区中,如果不在同一个可用区中,还需要手动添加一下路由,保障资源组与数据源之间网络是连通的。添加路由的操作详情可参见添加路由

场景3:数据源在VPC网络中,且VPC和DataWorks在不同的地域

如果数据源在VPC网络中,且VPC和DataWorks在不同的地域中,那您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。

常见的网络连通产品包括:

  • 云企业网使用场景示例,请参见云企业网
  • 高速通道使用场景示例,请参见高速通道
  • VPN网关使用场景示例,请参见VPN网关

此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由

场景4:数据源在IDC内

如果数据源在IDC内,与场景3:数据源在VPC中且与DataWorks不同地域的场景类似,您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。

常见的网络连通产品包括:

  • 云企业网使用场景示例,请参见云企业网
  • 高速通道使用场景示例,请参见高速通道
  • VPN网关使用场景示例,请参见VPN网关

此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由

场景5:数据源在经典网络

如果数据源在经典网络内,则此场景下,不支持数据源与DataWorks资源组网络连通,建议您将数据源迁移至VPC网络中。

PS:阿里云经典网络已不推荐使用,建议您迁移数据源至VPC。

Part3:注意事项——白名单的影响

保障资源组与数据源之间网络连通后,您还需保障资源组与数据源之间不会因为白名单的限制而无法进行数据访问,例如,部分数据源设置白名单后会不允许白名单外的IP访问,您需要将资源组的IP添加至数据源的白名单中。

使用不同类型的数据集成资源组时,需要添加到数据源白名单中的IP地址不一致,详情可进入帮助中心查看,以下为您示例,使用独享数据集成资源组时,需要获取并添加到数据源白名单中的IP地址。

  • 交换机网段:

  • 独享资源组的EIP地址:

原文链接
本文为阿里云原创内容,未经允许不得转载。

以上是关于DataWorks 功能实践速览的主要内容,如果未能解决你的问题,请参考以下文章

DataWorks功能实践速览

DataWorks 功能实践速览03期 — 生产开发环境隔离

DataWorks 功能实践速览

DataWorks功能实践速览 05——循环与遍历

DataWorks功能实践速览 05——循环与遍历

DataWorks 功能实践 — 生产开发环境隔离