金牌会员
 
- 威望
- 556
- 贡献
- 679
- 热心值
- 1
- 金币
- 74
- 注册时间
- 2019-8-14
|
课程亮点:
1、数据采集使用Lua,实现并发量的最大化,尽可能的降低高并发时的数据丢失.
2、消息队列采用Kafka,实现各模块的解耦,利用Kafka的高吞吐和可持久化的特性为平台提升稳定性.
3、利用SparkStreaming实现数据的实时计算,完成从数据预处理到爬虫黑名单的计算.
4、Spark的状态监控功能,实时掌握Spark的运行状态.
5、使用SparkSQL实现数据可视化相关指标的离线计算
课程内容:
1、项目整体介绍和数据采集模块详细介绍
2、openresty安装和lua语法学习
3、数据采集模块开发和反爬虫工程创建及链路统计功能开发
4、数据预处理模块:数据清洗和脱敏和打标签及数据解析
5、"数据结构化和数据推送 spark系统监控功能开发 实现反爬平台系统监控6、爬虫识别指标计算7、爬虫数据备份恢复和离线计算
适用人群:
1、对大数据Spark感兴趣的在校生及应届毕业生。
2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。
3、对大数据行业感兴趣的相关人员。 |
|