学习笔记之kettle基础
Posted 可持续化发展
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习笔记之kettle基础相关的知识,希望对你有一定的参考价值。
文章目录
kettle简介
ETL简介
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle!
kettle简介
- Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
- Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
- Kettle允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
- Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
- Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。
kettle的结构
Spoon和Data Integration Server
Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。
Data Integration Server是一个专用的ETL Server,它的主要功能有:
Enterprise Console(企业控制台)提供了一个小型的客户端,用于管理Pentaho Data
Integration企业版的部署,包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。
kettle的核心组件
kettle概念模型
核心概念
可视化编程
Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。Kettle里的图就是转换和作业。
可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。
转换
转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。
转换包含一个或多个步骤(step),如读取文件、过滤数据行、数据清洗或将数据加载到数据库。
转换里的步骤通过跳(hop)来连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
数据流有的时候也被称之为记录流。
Step步骤
步骤(控件)是转换里的基本的组成部分。
一个步骤有如下几个关键特性:
- 步骤需要有一个名字,这个名字在转换范围内唯一。
- 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
- 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。
- 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。
Hop跳
跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。
跳实际上是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义)。
当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。
当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
修改行集大小
数据行的数据类型
数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。
①String:字符类型数据
②Number:双精度浮点数。
③Integer:带符号长整型(64位)。
④BigNumber:任意精度数据。
⑤Date:带毫秒精度的日期时间值。
⑥Boolean:取值为true和false的布尔值。
⑦Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
数据行的元数据
数据行的元数据就是每个步骤在输出数据行时对字段的描述,。
通常包含下面一些信息。
①名称:行里的字段名应用是唯一的。
②数据类型:字段的数据类型。
③格式:数据显示的方式,如Integer的#、0.00。
④长度:字符串的长度或者BigNumber类型的长度。
⑤精度:BigNumber数据类型的十进制精度。
⑥货币符号:¥
⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)
并行
跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种并发低消耗内存的方式也是ETL工具的核心需求。
对于kettle的转换,不可能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。 (要与数据流向区分开)
如果你想要一个任务沿着指定的顺序执行,那么就要使用后面所讲的“作业”!
kettle下载与安装
下载地址1
下载地址2:(pdi-ce-9.1.0.0-324.zip,这个百度云是kettle9的zip)
链接:https://pan.baidu.com/s/1Z9uhIaIcwwppaGEEX3bdsA
提取码:k3u4
下载好zip后,解压。
- 配置Java环境及Java环境变量。请自行百度。
- 配置kettle的环境变量。
就是把Spoon.bat的所在目录:D:\\HuaXiaBank\\kettle_study\\data-integration。这个路径加到
环境变量–系统变量–Path中。(对于路径,请自行类比)
Windows10下运行就直接点击Spoon.bat。
文件的作用
执行结果窗口
日志:查看日志信息。
步骤度量:可以看到每一步的输入输出情况。
Metrics:可以查看每一步的时间消耗。耗时与硬件相关。
Preview data:调试程序的时候,可以根据它来查看每一步的数据是否达到期望。
kettle输入控件
kettle的输入控件是指把其他地方的数据拿出来,输入到kettle数据流中,作为后续操作的输入。
CSV文件输入
输入:就是用来抽取数据或生成数据。是ETL操作的E。
CSV文件是一种带有固定格式的文本文件。
- 步骤名称,应该命名唯一且具有可读性
文本文件输入
提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。
Excel输入
微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。
xls:2007年之前
xlsx:2007年之后
多文件合并
数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。
读取input目录下以04多文件合并开头的所有Excel数据合并到一个Excel。
配合通配符使用的。
Get data from XML
XML 指可扩展标记语言(EXtensible Markup Language), XML 被设计用来传输和存储数据。
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。
选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了最有用的路径表达式:
XML路径:xpath路径
节点类型
JSON input
JSON(javascript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。
JSON核心概念:数组、对象、属性
数组:[ ]
对象:{ }
属性:key:value
JSONPath类似于XPath在xml文档中的定位,JsonPath表达式通常是用来路径检索或设置Json的。
其表达式可以接受“dot–notation”(点记法)和“bracket–notation”(括号记法)格式
点记法:$.store.book[0].title
括号记法:$[‘store’][‘book’][0][‘title’]
生成记录
数据仓库中绝大多数的数据都是业务系统生成的动态数据,但是其中一部分维度数据不是动态的,比如:日期维度。
静态维度数据就可以提前生成。
表输入
下载mysql驱动的jar包。
驱动jar包下载地址
下第二个。然后,编辑数据库连接。
kettle输出控件
kettle输出控件是指将kettle上一步骤中的数据流里面的数据输出到其他地方。
Excel输出
输出是转换里面的第二个分类。
输出属于ETL的L,L就是Load加载。
文本文件输出
这是复制记录的方式
这是分发记录的方式
SQL文件输出
SQL文件输出可以导出数据库表的结构和数据。
表输出
表输出就是把数据写入到指定的表!
更新
更新就是把数据库已经存在的记录与数据流里面的记录进行比对,如果不同就进行更新。
注意:如果记录不存在,则会出现错误!
插入更新
插入更新就是把数据库已经存在的记录与数据流里面的记录进行比对,如果不同就进行更新。
如果记录不存在,则会插入数据!
删除
1、自定义常量数据
自定义常量数据就是生成key-value形式的常量数据。
2、 删除就是删除数据库表中指定条件的数据。
kettle转换控件
Concat fields
转换是转换里面的第四个分类。
转换属于ETL的T,T就是Transform清洗、转换。
ETL三个部分中,T花费时间最长,是“一般情况下这部分工作量是整个ETL的2/3。
Concat fields就是多个字段连接起来形成一个新的字段。
值映射
值映射就是把字段的一个值映射成其他的值。
在数据质量规范上使用非常多,比如很多系统对应性别gender字段的定义不同。
系统1:1 男、2女
系统2:f 男、m 女
数据仓库统一为:female 男、male女
增加常量
增加常量就是在本身的数据流里面添加一列数据,该列的数据都是相同的值。
增加序列
增加序列是给数据流添加一个序列字段。
字段选择
字段选择是从数据流中选择字段、改变名称、修改数据类型。
计算器
计算器是一个函数集合来创建新的字段,还可以设置字段是否移除(临时字段)。
字符串-剪切-操作-替换
- 剪切字符串
剪切字符串是指定输入流字段裁剪的位置剪切出新的字段。 - 字符串替换
字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生成新字段。 - 字符串操作
字符串操作是去除字符串两端的空格和大小写切换,并生成新的字段。
去除重复记录+排序记录
- 去除重复记录
去除重复记录是去除数据流里面相同的数据行。
注意:必须先对数据流进行排序! - 排序记录
排序记录是按照指定的字段的升序或降序对数据流排序。
唯一行(哈希值)
唯一行(哈希值)就是删除数据流重复的行。
注意:唯一行(哈希值)和(排序记录+去除重复记录)效果一样的,但是实现的原理不同!
唯一行(哈希值)执行的效率会高一些!
拆分字段
拆分字段是把字段按照分隔符拆分成两个或多个字段。
注意:拆分字段后,原字段就不存在于数据流中!
列拆分为多行
列拆分为多行就是把指定分隔符的字段进行拆分为多行。
列转行
列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。
去除一些原来的列名,把一列数据变为字段。
注意:列转行之前数据流必须进行排序!
行转列
行转列就是把数据字段的字段名转换为一列,把数据行变为数据列。
行扁平化
行扁平化就是把同一组的多行数据合并成为一行。
注意:
只有数据流的同类数据数据行记录的行数相同的情况才可使用!比如说张三的数据有三行,李四的数据只有两行。此时,就会错误。
数据流必须进行排序,否则结果会不正确!
kettle应用控件
替换NULL值
应用都是一些工具类。
替换NULL值就是把null转换为其它的值。
NULL值不好进行数据分析
写日志
写日志主要是在调试的时候使用,把日志信息打印到日志窗口。
从Excel读取数据,向日志输出窗口打印出所有的数据信息
发送邮件
发送邮件就是执行成功、失败、其它某种情景给相关人员发送邮件。
注意:
只有企业邮箱才可以!个人邮箱不行!
并且需要在邮件设置中开通客户端授权码!
kettle流程控件
流程主要用来控制数据流程和数据流向。
Switch/case
Switch/case让数据流从一路到多路。
过滤记录
过滤记录让数据流从一路到两路。
从Excel读取数据,分离出code列为空的数据,分别保存到不同的Excel文件
空操作
空操作一般作为数据流的终点。
(在kettle的sample中经常使用,但是实际开发中很少使用)
中止
中止是数据流的终点,如果有数据到这里,将会报错。
用来校验数据的时候使用。
kettle查询控件
HTTP client
查询是转换里面的第七个分类。
查询是用来查询数据源里的数据并合并到主数据流中。
HTTP client是使用GET的方式提交请求,获取返回的页面内容。
自定义常量数据是用来生成一些不变的数据。
从网络上获取xml,解析出ProductID、ProductName、SupplierID、CategoryID,保存到Excel中。
地址:http://services.odata.org/V3/Northwind/Northwind.svc/Products/
数据库查询
数据库查询就是数据库里面的左连接。
左连接就是两张表执行左关联查询,把左边的表数据全部查询出来。
从employees表中读取数据,根据dep_id从departments表获取dep_name,保存到Excel中。
数据库连接
数据库连接可以执行两个数据库的查询,和单参数的表输入。
从departments表中读取数据,连接到另外一个数据库的employees,把数据保存到Excel。
流查询
流查询在查询前把数据都加载到内存中,并且只能进行等值查询。
如果数据来源于两个部分,且需要对这两个部分的数据进行关联查询,就用流查询。
从Excel读取employess和departments的数据,根据dep_id来查询dep_name,把数据保存到Excel。
kettle连接控件
合并记录
连接是转换里面的第八个分类。连接是结果集通过关键字进行连接。
合并记录是用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。
比较新旧记录。
需要设置的参数:
旧数据来源:旧数据来源的步骤
新数据来源:新数据来源的步骤
标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。
- “identical” – 旧数据和新数据一样
- “changed” – 数据发生了变化;
- “new” – 新数据中有而旧数据中没有的记录
- “deleted” –旧数据中有而新数据中没有的记录
关键字段:用于定位两个数据源中的同一条记录。
比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。
合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。
注意:
旧数据和新数据需要事先按照关键字段排序。
旧数据和新数据要有相同的字段名称。
匹配的关键字是:为了取到两个相互比较的记录。定位比较的对象。
数据字段是:两者之间的比较标准。
从Excel读取新数据和旧数据,合并数据,标记处new、delete、changed、identical,把数据保存到Excel。
记录关联(笛卡尔积)
记录关联就是对两个数据流进行笛卡尔积操作。
从Excel读取两位和三位数,完成两位数和三位数的组合(笛卡尔积),把结果保存在Excel。
记录集连接
记录集连接就像数据库的左连接、右连接、内连接、外连接。
注意:在进行记录集连接之前,应该要对记录集进行排序。
从Excel中读取employees和departments数据,进行内关键,左关联,右关联,全关联,把数据保存到Excel。
kettle统计控件
统计是提供数据的采样和统计功能。
分组
分组是按照某一个或某几个进行分组,同时可以将其余字段按照某种规则进行合并。
注意:
分组之前数据应该进行排序!
从Excel读取数据,按照group进行分组统计,把结果保存到Excel。
kettle映射控件
映射是转换里面的第十八个分类。映射是用来定义子转换,便于封装和重用。
- 映射(子转换)是用来配置子转换,对子转换进行调用的一个步骤。一个转换中调用另一个转换。可用于代码的重用。主要是用于被其他的转换调用的。类似于封装的功能。
- 映射输入规范是输入字段,由调用的转换输入。
- 映射输出规范是向调用的转换输出所有列,不做任何处理。
从t_orders表中获取数据,根据u_id查询t_users表,获取用户信息,并把数据保存到Excel。
kettle脚本控件
javascript脚本
脚本就是直接通过程序代码完成一些复杂的操作。
javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作。
JS中有很多内置函数,可以在编写JS代码时查看。
存在两种不同的模式:不兼容模式和兼容模式
不兼容模式:是默认的,也是推荐的
兼容模式:兼容老版本的kettle
- javascript脚本-获取字段
不兼容模式:
myVar = FieldName;
兼容模式:根据字段类型的不同,使用不同的方法:
myVar = FieldName.getString();
myVar = FieldName.getNumber();
- javascript脚本-给字段赋值
不兼容模式:直接使用字段名,如
FieldName = myVar;
兼容模式:使用
FieldName.setValue(myVar);
- javascript脚本-在脚本中使用java类
不兼容模式:
var myVar = new java.lang.String(“pentahochina.com”);
兼容模式:
var myVar = new Packages.java.lang.String (“pentahochina.com”);
生成日期维度数据有日期,年,月,日,从2000年01月01日开始有1000条记录,保存到Excel。
Java脚本
java脚本就是使用java语言通过代码编程来完成对数据流的操作。内置了很多函数可以直接使用。
- Main函数对应一个processRow()函数,processRow()函数是用来处理数据流的场所!
从Excel中读取数据,生成newcode字段,如果code列为NULL就使用name列来替换,否则就在code列的后面加上123,结果保存在Excel。
SQL 脚本
执行SQL脚本可以执行一个update语句,用来更新某个表中的数据。
从t_users表中获取所有的数据,把age的值都更改为33。
kettle作业和参数
以上是关于学习笔记之kettle基础的主要内容,如果未能解决你的问题,请参考以下文章