自己总结的etl数挖掘据工具-Kettle

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自己总结的etl数挖掘据工具-Kettle相关的知识,希望对你有一定的参考价值。

etl工作中
Kettle软件介绍
Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。
?
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 将 ELT 流程编译为 XML 格式,学起来十分简单,Pentaho Data Integration (Kettle) 使用 Java (Swing)开发。Kettle 作为编译器对 XML 格式书写的流程进行编译。这些功能和组件比起 Talend 在丰富性方面稍逊一些,但是您建立复杂 ETL 流程需要的一切元素。Kettle 的 javascript 引擎(和 Java 引擎)可以深层地控制对数据的处理。
Kettle使用教程:
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了.

安装Kettle

1.由于软件是由java 编写 需要 先安装jdk jdk 版本要求是1.6
2.安装完成后 要在window 下 设置环境变量
3.在administratorbian变量path 中 增加java变量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系统变量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43

  1. 系统变量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin
    6.在dos 下 输入javac 测试 环境变量
    7.如果需要连接mysql 数据库需要把mysql 数据库的安装包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC
    8.使用spoon 不需要安装 双击spoon 用户名admin 密码不输入 进入软件界面
    9.进入界面后 新建作业或者转换 进行数据库连接

以上是关于自己总结的etl数挖掘据工具-Kettle的主要内容,如果未能解决你的问题,请参考以下文章

Kettle工具使用及总结

kettle使用总结

ETL工具kettle的组件--生成记录

ETL工具总结

程序员小姐姐的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)

ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle