kettle庖丁解牛第2篇之初识kettle

Posted 飞哥大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kettle庖丁解牛第2篇之初识kettle相关的知识,希望对你有一定的参考价值。

Kettle

简介

Kettle是一款国外开源的ETL工具,它是纯java语言编写,可以在Window、Linux、Unix上运行,绿色无需安装解压即可使用。kettle的中文名称叫水壶,kettle的原始开发团队,他们希望把各种数据放到kettle这个数据的水壶里,然后以一种指定的格式流出。

kettle启动界面

kettle庖丁解牛第2篇之初识kettle_kettle

kettle启动后界面

kettle庖丁解牛第2篇之初识kettle_转换_02


kettle目录说明

kettle软件包解压后,会产生很多目录,我们来简单说一说。

kettle庖丁解牛第2篇之初识kettle_kettle_03

classes:生命周期监听、注册表扩展、日志的配置文件

Data Integration.app:数据集成应用

Data Service JDBC Driver:JDBC驱动程序的数据服务

docs:文档

launcher:Kettle的启动配置

lib:支持库的jar包

libswt:Kettle图形库jar

plugins:插件

pwd:Kettle集群配置文件

samples:自带例子

simple-jndi:jndi连接配置

system:系统目录

ui:软件界面

Kettle常用工具说明

下图中使用红色方框标识的,就是kettle常用的工具。大家可以看到,每类工具它都有2种扩展名:

(1) .bat后缀的工具,它是windows环境使用的

(2) .sh后缀的工具,它是linux环境使用的。

kettle庖丁解牛第2篇之初识kettle_kjb_04

Spoon:是一个图形用户界面,允许你通过图形界面来设计ETL转换过程(Transformation)和任务。

Pan:转换(trasform)执行器;允许你批量运行由Spoon设计的ETL转换(如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

Kitchen:作业(job)执行器;允许你批量使用由Chef设计的任务(如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

Encr: 用来加密连接数据库密码与集群时使用的密码

Carte:kettle支持Carte服务级部署模式,即服务器后台会跑一个常驻Carte程序,job/trans都运行在这个服务里。Carte是一个轻量级的web服务,允许远程请求HTTP进行监控、启动、停止在Carte服务上运行的job和trans

set-pentaho-env:设置环境变量脚本

SpoonDebug:以Debug的方式运行kettle

kettle的下载

官方下载

官网下载地址      https://sourceforge.net/projects/pentaho/files/

1、官方最新版本

kettle庖丁解牛第2篇之初识kettle_kettle_05

kettle庖丁解牛第2篇之初识kettle_kettle_06

2、历史版本下载

kettle庖丁解牛第2篇之初识kettle_转换_07

kettle庖丁解牛第2篇之初识kettle_kjb_08

kettle庖丁解牛第2篇之初识kettle_作业_09

kettle庖丁解牛第2篇之初识kettle_kjb_10

大飞哥网盘分享

如果你觉得去官方下载太麻烦了,为了让兄弟们学习方便,我把kettle常用的版本已经下载完,上传到我的网盘中了,各位也可以去我的网盘中下载。

kettle庖丁解牛第2篇之初识kettle_ktr_11

网盘中有:9系列、8系列、7系列

kettle庖丁解牛第2篇之初识kettle_kjb_12

链接:https://pan.baidu.com/s/1f__AcVAkqAo3EzFNvFhGwA

提取码:feig

技术支持

一个好的软件产品,不只是这个软件功能强大,更新版本速度快。还有一个最重要的点,就是我们在使用软件的过程中遇到了问题,我们可以快速的找到对应的技术支持。

官方社区   

http://forums.pentaho.com/

kettle庖丁解牛第2篇之初识kettle_转换_13

官网wiki   

http://wiki.pentaho.com/display/COM/Community+Wiki+Home

kettle庖丁解牛第2篇之初识kettle_作业_14

源码地址 

https://github.com/pentaho/pentaho-kettle

kettle庖丁解牛第2篇之初识kettle_kettle_15

kettle中文网  

​http://www.kettle.net.cn/​

kettle庖丁解牛第2篇之初识kettle_ktr_16

kettle中基本概念

1、repository资源库

用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。

2、ktr转换

将一个或多个数据源组装成一条数据流水线,根据业务要求,利用Kettle内部的组件,进行数据处理,最后输出到某一个地方(文件或数据库)。

3、kjb作业

可以调度设计好的一个或多个转换,也可以执行一些文件处理(比较\\删除等),还可以往ftp上传和下载文件,发送邮箱,执行shell命令等等。

4、连接线

连接转换步骤或者连接Job(实际上就是执行顺序)的连线。

5、转换连接

表示数据的流向。从输入开始,中间包括了:过滤等转换操作,最后到输出。

6、作业连接

表示作业的执行流程。作业连接时,可设置执行条件有3种:  

a、无条件执行

b、当上一个Job执行结果为true时执行

c、当上一个Job执行结果为false时执行

结束语

kettle是一款非常成熟的软件,它已经问世N多年了。关于kettle的介绍其实太多了,由于篇幅有限,我们就讲到这了。如果有感兴趣的兄弟,可以自行再学习。

我写这篇文章的目的,就是为了让大家对kettle有个认识,扫个盲即可,这块不是我们的正餐。我们的正餐:实战操作kettle各种组件。

啥都别说了,兄弟们后面跟着我干就完了!!后续的内容更精彩,敬请期待,感谢兄弟们的关注!!

以上是关于kettle庖丁解牛第2篇之初识kettle的主要内容,如果未能解决你的问题,请参考以下文章

kettle庖丁解牛第9篇之DB连接终篇

kettle庖丁解牛第20篇之JSON输出

kettle庖丁解牛第5篇之文本文件输入

kettle庖丁解牛第14篇之JSON输入

kettle庖丁解牛第26篇之删除

kettle庖丁解牛第25篇之插入更新