发布时间 : 星期四 文章ETL工具kettle学习总结更新完毕开始阅读6352122d915f804d2b16c193
1.9 De-serialize from file
从二进制kettle cube文件中读取记录
1.10 Access input
读取access数据库
1.11 1.12
ESRI Shapefile Reader Fixed file input
读取固定大小文件
1.13 1.14
Generate random value Get Files Rows Count
获取文件内容的行数
1.15 1.16
Get SubFolder names Get data from XML
从xml文件解析出数据
1.17 LDAP Input
从ldap库读取数据。
1.18 LDIF Input
读取ldap的ldif文件
1.19 Mondrian Input
MDX语言从Mondrian服务器上读取数据
1.20 1.21 1.22 1.23
RSS Input S3 CSV Input SalesForce Input XBase input
读取XBase系列文件,如Foxpro文件,主要是数据库语言
2. 输出类型
2.1 Table output
将数据写入到数据库,可以指定是否truncate表,编辑前一步转换字段与现在表结构的字段映射关系。以及每次commit的记录数大小等。
2.2 Text file output
将数据写入到文本文件,通常是csv文件
2.3 Insert / Update
根据关键字找对应的记录,如果找不到则执行insert,否则执行update
2.4 Update
跟insert/update类似,只是没有insert操作
2.5 Delete
跟update类似,只是执行的是delete操作
2.6 Excel Output
输出到excel,格式可以采用excel模板
2.7 Serialize to file
将记录写到二进制文件中(cube文件)
2.8 Access Output 2.9 Properties Output
输出到properties文件
2.10 2.11
RSS Output SQL File Output
将输出的sql insert语句保存到文件
2.12 2.13
Synchronize after merge XML Output
输出到xml文件
3. Transform类型
3.1 Select values
用于选择列,重命名列,指定列长度或精度
3.2 Filter rows
通过使用一个表达式从输入行中过滤数据,将结果是TURE或FALSE的行输出到不同的节点。表达式是“”“OPERATOR”“” 的形式,其中OPERATOR可以是 =,<>, <, >, <=, >=, REGEXP,IS NULL,IS NOT NULL, IN LIST, CONTAINS, STARTS WITH, ENDS WITH。 用户可以增加多个表达式,并用AND或OR连接。
3.3 Sort rows
对指定的列以升序或降序排序,当排序的行数超过5000时需要临时表。