课程内容: 1、项目整体介绍和数据采集模块详细介绍 2、openresty安装和lua语法学习 3、数据采集模块开发和反爬虫工程创建及链路统计功能开发 4、数据预处理模块:数据清洗和脱敏和打标签及数据解析 5、"数据结构化和数据推送 spark系统监控功能开发 实现反爬平台系统监控6、爬虫识别指标计算7、爬虫数据备份恢复和离线计算
适用人群:
1、对大数据Spark感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。
课程目录: 第一章 项目概述 1课程内容 1. 系统介绍 2. 模块介绍 3. 数据流程描述 4. 逻辑架构设计 5. 功能描述 6. 系统架构 第二章 离线数据入库 1. 数据上传 2. 创建数据表 3. 数据拆分 4. 数据表加载
第三章 离线数据整理 1. 业务SQL语句编写 2. 整理SQL语句生成结果表的结构及字段 3. 根据结果表所需的字段,在原始表中抽取该字段 4. 数据加工及入库 5. 创建索引
第四章 实时数据生成及计算 1. Mysql 数据写入 2. canal 解析mysql实时数据写入本地 3. Flume收集数据将数据上传至集群 4. SparkStreaming 实时计算
|