论坛元老
- 威望
- 0
- 贡献
- 46
- 热心值
- 1
- 金币
- 5847
- 注册时间
- 2020-8-31
|
〖课程介绍〗:5 l) g7 I3 ?& J+ n, Q9 E, |
ETL (Extract-Transform-Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如Informatica,Datastage等。
目前市场上开源且实用的 ETL 工具比较少,Kettle 就是这不多的开源 ETL 工具之一。
本课程将主要讲解开源 ETL 工具 Kettle 的基本使用和二次开发方法,并结合实际项目案例,讲解 Kettle 如何在实际中应用,以及应用中可能会出现的问题。
本课程也将结合实际项目,讲述 Kettle 如何支持 NO SQL 数据源,包括 Hadoop、HBase、MongoDB 等。7 |6 g+ c% e, ?
除了Kettle 的使用外,在本课程的后几个课时,将讲述 Kettle 的二次开发: 包括 Kettle 代码阅读指导, Kettle API 的说明以及使用方法, Kettle 插件的开发方法等。, @1 V4 p+ \4 H/ _
〖课程目录〗:5 U. L' ]: }( I% P/ X* v; w
第一课时:ETL 的概念,Kettle 的概念、功能、操作# Z% }& ^: X* |8 X# {! d1 S
第二课时:Kettle 资源库、日志、运行方式) p) R, B9 O6 d4 Q3 T) D
第三课时:输入步骤(表输入、文本文件输入、XML 文件输入...)
第四课时:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...)
第五课时:转换步骤(过滤、字符串处理、拆分字段、计算器...)) Y/ R7 ~) D! Q8 C; j
第六课时:转换步骤(字段选择、排序、增加校验列、去除重复记录...)1 j) B0 i/ v F% e4 \# T
第七课时:应用步骤、流程步骤(处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...)9 V5 e# E! u+ r
第八课时:查询步骤、连接步骤(数据库查询、流查询、合并记录、记录集连接、笛卡尔...): Q. }: k0 `/ R% O- |8 X* c9 q
第九课时:脚本步骤(Javascript,Java Class、正则表达式...)$ Q! J4 i$ g. i6 I! E" x7 _
第十课时:作业项(拷贝、移动、ftp、sftp…)0 b+ [3 ` P% V" P
第十一课时:Kettle 的参数和变量、Kettle 集群; W7 x% E: _: [$ c( Z
第十二课时:Ketle 代码编译、代码结构、应用集成、各种配置文件
第十三课时:插件开发 - 步骤、作业项
第十四课时:作业设计技巧、错误处理、调试转换、循环和分支$ E1 G- I$ ?+ t$ a2 v$ b
第十五课时:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)
|
|