数据对接-ETL之StreamSet学习之旅一
Posted webmote
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据对接-ETL之StreamSet学习之旅一相关的知识,希望对你有一定的参考价值。
目录
学习系列
- 数据对接-ETL之StreamSet学习之旅一
- 数据对接-ETL之StreamSet学习之旅二
- 数据对接-ETL之StreamSet学习之旅三
- 数据对接-ETL之StreamSet学习之旅四
- 数据对接-ETL之StreamSet学习之旅五
- 数据对接-ETL之StreamSet学习之旅六
StreamSet介绍
StreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。
SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控。该应用更侧重于数据的接入和数据流的构建、监控和管理
StreamSets数据操作平台是唯一旨在简化如何构建,执行和操作企业数据流的平台。构建在开源核心上,开发人员可以轻松构建批处理和流式数据流,而且代码少,而运营商使用云本地产品将数十或数百个数据流聚合到拓扑中,并通过实时可见性和性能控制集中管理。
根据StreamSet的介绍,我司准备引进其与第三方的数据源进行对接,继而把数据流入到我司的大数据平台。
StreamSet安装
安装StreamSet有多重方式,因为其是开源的项目,因此理论上你可以下载源代码,直接编译安装,这里介绍两种方式:
1. RPM安装
这里以Centos7.5为例进行安装。
导航至 https://streamsets.com/opensource ,按图示选择下载。
这个大家伙足足有5Gb,因此准备好足够的空间和耐心。
下载完成后,在该文件所在目录下执行如下命令:
tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar
解压好后,进入解压的目录内执行
yum localinstall streamsets*.rpm
systemctl start sdc
为了能在外部访问,检查下Centos的防火墙策略,允许需要的端口出去,这里简单粗暴的关闭防火墙:
systemctl stop firewalld.service
访问之:
http://<hostname>:18630/
默认账号和密码均为admin
2. Docker镜像安装
docker镜像官方已发布,因此步骤简单很多。
docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc
存储
镜像安装需要特别注意存储路径的问题,你需要把/data目录映射出来,否则建立的管道无法持久化。
全部安装的省略这些。
应用
StreamSet有可视化流程编辑界面,并且包括50种数据源、44种数据操作、46种目的地。
对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。
StreamSet支持的源有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。
甚至可以直接建立HTTP微服务Api,以供第三方调用,强大的功能吸引我们继续去探索。
引用链接
以上是关于数据对接-ETL之StreamSet学习之旅一的主要内容,如果未能解决你的问题,请参考以下文章
乐鑫Esp32学习之旅29 安信可Wi-Fi模组对接华为云物联网平台的指南。(附带源码)
乐鑫Esp32学习之旅29 安信可Wi-Fi模组对接华为云物联网平台的指南。(附带源码)