ETL工具kettle学习总结 联系客服

发布时间 : 星期四 文章ETL工具kettle学习总结更新完毕开始阅读6352122d915f804d2b16c193

1.9 De-serialize from file

从二进制kettle cube文件中读取记录

1.10 Access input

读取access数据库

1.11 1.12

ESRI Shapefile Reader Fixed file input

读取固定大小文件

1.13 1.14

Generate random value Get Files Rows Count

获取文件内容的行数

1.15 1.16

Get SubFolder names Get data from XML

从xml文件解析出数据

1.17 LDAP Input

从ldap库读取数据。

1.18 LDIF Input

读取ldap的ldif文件

1.19 Mondrian Input

MDX语言从Mondrian服务器上读取数据

1.20 1.21 1.22 1.23

RSS Input S3 CSV Input SalesForce Input XBase input

读取XBase系列文件,如Foxpro文件,主要是数据库语言

2. 输出类型

2.1 Table output

将数据写入到数据库,可以指定是否truncate表,编辑前一步转换字段与现在表结构的字段映射关系。以及每次commit的记录数大小等。

2.2 Text file output

将数据写入到文本文件,通常是csv文件

2.3 Insert / Update

根据关键字找对应的记录,如果找不到则执行insert,否则执行update

2.4 Update

跟insert/update类似,只是没有insert操作

2.5 Delete

跟update类似,只是执行的是delete操作

2.6 Excel Output

输出到excel,格式可以采用excel模板

2.7 Serialize to file

将记录写到二进制文件中(cube文件)

2.8 Access Output 2.9 Properties Output

输出到properties文件

2.10 2.11

RSS Output SQL File Output

将输出的sql insert语句保存到文件

2.12 2.13

Synchronize after merge XML Output

输出到xml文件

3. Transform类型

3.1 Select values

用于选择列,重命名列,指定列长度或精度

3.2 Filter rows

通过使用一个表达式从输入行中过滤数据,将结果是TURE或FALSE的行输出到不同的节点。表达式是“”“OPERATOR”“” 的形式,其中OPERATOR可以是 =,<>, <, >, <=, >=, REGEXP,IS NULL,IS NOT NULL, IN LIST, CONTAINS, STARTS WITH, ENDS WITH。 用户可以增加多个表达式,并用AND或OR连接。

3.3 Sort rows

对指定的列以升序或降序排序,当排序的行数超过5000时需要临时表。