论坛元老
- 威望
- 162
- 贡献
- 205
- 热心值
- 0
- 金币
- 5124
- 注册时间
- 2020-8-31
|
课程介绍:
据统计在整个数据分析过程里,收集、整理数据的工作大致占全部工作量的90%,建模过程不足10%,可见ETL是数据处理流程中一个非常重要的环节。ETL工程师,在数据仓库类职位中占有很大比例,而且薪水都不差。在ETL软件中,使用最多的是开源的Kettle,完全免费,功能和性能不弱于datastage这类商业ETL软件,使用Kettle和其它开源数据平台软件,例如Mysql集群,Hadoop集群等组合在一起,是性价比极高的架构选择。本课程系统讲解Kettle及其秘密。
课程目录:
第一课:ETL 的概念,Kettle 的概念、功能、操作
第二课:Kettle 资源库、日志、运行方式
第三课:输入步骤(表输入、文本文件输入、XML 文件输入...)
第四课:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...)
第五课:转换步骤(过滤、字符串处理、拆分字段、计算器...)
第六课:转换步骤(字段选择、排序、增加校验列、去除重复记录...)
第七课:应用步骤、流程步骤(处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...)
第八课:查询步骤、连接步骤(数据库查询、流查询、合并记录、记录集连接、笛卡尔...)
第九课:脚本步骤(Javascript,Java Class、正则表达式...)
第十课:作业项(拷贝、移动、ftp、sftp…)
第十一课:Kettle 的参数和变量、Kettle 集群
第十二课:Kettle 代码编译、代码结构、应用集成、各种配置文件
第十三课:插件开发 - 步骤、作业项
第十四课:作业设计技巧、错误处理、调试转换、循环和分支
第十五课:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)
适合人群:
1. ETL 工程师,Java 开发工程师,
2. 经常要做数据处理的 DBA
3. 有一定数据库基础 和 Java 基础的学生。
课程收获:
1. 理解 Kettle 软件的基本功能。
2. 能使用 Kettle 完成基本的数据处理工作。
3. 了解 Kettle 软件的一些高级功能
4. 对有Java 开发经验的同学,对 Kettle 代码结构有一定了解,能开发一些 Java 的基本插件。
|
|