ETL工具-Kattle:初识kattle

Posted rechin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ETL工具-Kattle:初识kattle相关的知识,希望对你有一定的参考价值。

ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。

Kattle介绍

用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。Kettle也叫 PDI,在2006年 Kettle 加入了开源的 BI 组织 Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。这个工具也正如我们中文翻译为水壶那样,它希望把所有需要的数据放到一个水壶里,然后以流的方式流出来。

 

下载安装

下载Kattle:https://community.hitachivantara.com/docs/DOC-1009855

安装使用kattle需要java环境,java环境配置,参考网文(kettle 7.X需要运行java 1.8或者更高版本)

解压安装包到安装目录,进入目录,运行

Spoon.bat :Windows

 Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。

 

技术分享图片

 

工具介绍

 kettle可以创建两种脚本文件,一种是transformation(*.ktr),就是任务,比如抽取数据,合并修改后再存入数据库什么的。 另一种是job(*.kjb),就是用来调用transformation的,类似oracle里的job调用存储过程。如下面的图分别是transformation脚本和job脚本。

技术分享图片

技术分享图片

 

以上是关于ETL工具-Kattle:初识kattle的主要内容,如果未能解决你的问题,请参考以下文章

kattle的连接SQLserver与vertica的一些方法

常用的etl工具都有哪些

Talend与TASKCTL比较

如此强大的开源ETL工具竟然被我发现了

KETTLE数据上传

大数据平台常见开源工具有哪些?