带你体验最新版的DataOps 大数据平台——StreamSets ControlHub,简单到让人发指

Posted webmote

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了带你体验最新版的DataOps 大数据平台——StreamSets ControlHub,简单到让人发指相关的知识,希望对你有一定的参考价值。

DataOps,顾名思义,其来源于DevOps的概念,提供全自动一体化的数据采集分析功能于一个篮子。 很早之前公司就有意向购买 ControlHub版本,我也因此联系了这家公司,只是很可惜,其负责人回邮件告诉我,中国境内目前并无销售渠道。而现在 Online的Beta版本已经来袭~~~,跟着我看看这个大平台的优势之所在?

1、呼之欲出的4.0版本

很早就看到StreamSets上线了 4.0的帮助,但是下载版里并没有,这让人非常好奇,StreamSets在憋什么大招呢?

是的,通过体验,我已经发现了秘密,这个版本将会打通自己的云原生关节,提供强大的下列功能:

  • job 管理
  • 调度Job管理
  • 负载、动态扩展
  • 函数片段支持
  • 云化平台
  • 分布式算力
  • 良好的监控和用户管理
    在这里插入图片描述

2.体验入口

StreamSets公司发起了三季度体验活动,机会难得,想尝鲜的朋友不妨一试。

2.1 注册

注册入口
在这里插入图片描述
登陆需要梯子,进去后按照向导,5分钟内搭建完毕。

2.2 搭建部署脚本

在这里插入图片描述

2.3 拷贝部署脚本

在这里插入图片描述
形如:

curl -s https://dev.hub.streamsets.com/streamsets-engine-install.sh | bash -s -- --deployment-id="1b72d612-b533-48f0-966b-927b488231a7:cd534f44-cf0f-11eb-a0cd-b3e334979695" --deployment-token="eyJ0eXAiOiJKV1QiLCJhbGciOiJub25lIn0.eyJzIjoiMTBjNGFmMTdlNWIwYzUwOGM4MGZhZmY3MjI4NjAzZDZmZDIwNGY4MmMwYzliYWY2MjQ5MDZmZjdiZWM0NmMyNWI1YjA4N2Q0MGM1Mjc3Y2E4YmQ0NGQ2MThmNTI3MDI1ZGE3ZTFlMGI0NTg2OTZkNzU2M2U3MGJiZjQ5NGE0MzIiLCJ2IjoxLCJpc3MiOiJkZXYiLCJqdGkiOiI5YmFiMDk1MS1mM2JhLTQxYTYtYjk0NC00ZTE4NzVlZDEwZTciLCJvIjoiY2Q1MzRmNDQtY2YwZi0xMWViLWEwY2QtYjNlMzM0OTc5Njk1In0." --sch-url="https://dev.hub.streamsets.com"

如果你复制我的脚本,将为我增加算力引擎,可以联系我,给你开个账号体验。当然你复制的是自己生成的脚本,那就可以直接体验了。

2.4 增加算力引擎

首先我们需要一台云主机~~~
然后安装java sdk,再然后执行上面的脚本即可。

# 1.安装javasdk
yum -y install java-1.8.0-openjdk*

# 2. 复制你的部署脚本

注意算力平台需要1G+内存,因此保证你的内存充足。
在这里插入图片描述
一路按Y即可。 4.0的StreamSet已经部署OK,并且连接到你的云平台。

2.5 检查算力引擎

点开control hub平台的Setup - Engines,应该可以开到已经增加了一台算力计算机。
在这里插入图片描述

3 体验管道

点开 build的管道:
在这里插入图片描述
打开一个可以看到如下图,每个组件的图标焕然一新,配色很舒服。
在这里插入图片描述

3.1 让我们建立个采集管道

在这里插入图片描述
拖放组件放置好,一个管道分分钟搭建而成。

3.2 版本管理

云平台提供了 Check In功能,版本的问题很好的得到了解决。

在这里插入图片描述

3.3 运行预览

点击小眼睛图标。
在这里插入图片描述
数据预览如下:
在这里插入图片描述

4 体验片段(函数)

以前的SDC平台没办法建立函数,这多少让我们无法复用代码。
这个片段怎么样?

在这里插入图片描述

4.1 新建片段

我们构建一个简单的http请求片段,如下,就好了。
是的,片段不需要 源和目标, 源和目标就是函数的入参和返回值。

在这里插入图片描述

4.2 调试下片段

因为没有源,调试需要选择测试源。
在这里插入图片描述

4.3 版本管理

关于片段,其也同样拥有版本管理。

4.4 引用片段

建立一个新管道,我们引用刚建立的片段函数。
在这里插入图片描述
好嗨呀!

5 job

新加入的Job 就是这前简单运行管道的升级版。
在这里插入图片描述
监视信息很齐全。
在这里插入图片描述

5.1 建立job

在这里插入图片描述

5.2 建立调度Job

在这里插入图片描述
在这里插入图片描述
有了调度job,小伙伴还在发愁无法定期启动管道吗?

6 数据和算力监控

在这里插入图片描述
在这里插入图片描述

7 用户管理

告别简单用户管理,这里增加了常用的 用户、组、审计、api 认证Key等

在这里插入图片描述

8 小结

小伙伴是不是已经惊呆了?

给力的集成平台,是我们心中想的样子!

运行期间,并不需要梯子,运行超级流畅。 目前是Beta期间,也许后续会收费,希望不太贵。

喜欢,就点下关注、收藏!你的点击就是我前进的动力!

以上是关于带你体验最新版的DataOps 大数据平台——StreamSets ControlHub,简单到让人发指的主要内容,如果未能解决你的问题,请参考以下文章

大数据的下一站 DataOps,智领云发布纯 K8s 云原生数据平台 BDOS Online

白鲸开源再获数千万元融资,完善 DataOps 开源生态,打造下一代云原生智能DataOps平台

智领云CEO彭锋:DataOps,大数据的新战线

一文读懂DataOps

DataOps- 数据开发治理一体化之网易数帆数据治理2.0实践分享

DataOps 不是工具,而是帮助企业实现数据价值的最佳实践