黑马程序员 - 大数据反爬虫项目【完整资料】

有种你重名 · 发表于 2020-12-2 19:20

kkkkkkkkkkk

乘风破浪 · 发表于 2020-12-2 19:22

课程亮点：
1、数据采集使用Lua,实现并发量的最大化,尽可能的降低高并发时的数据丢失.
2、消息队列采用Kafka,实现各模块的解耦,利用Kafka的高吞吐和可持久化的特性为平台提升稳定性.
3、利用SparkStreaming实现数据的实时计算,完成从数据预处理到爬虫黑名单的计算.
4、Spark的状态监控功能,实时掌握Spark的运行状态.
5、使用SparkSQL实现数据可视化相关指标的离线计算

课程内容：
1、项目整体介绍和数据采集模块详细介绍
2、openresty安装和lua语法学习
3、数据采集模块开发和反爬虫工程创建及链路统计功能开发
4、数据预处理模块：数据清洗和脱敏和打标签及数据解析
5、"数据结构化和数据推送 spark系统监控功能开发实现反爬平台系统监控6、爬虫识别指标计算7、爬虫数据备份恢复和离线计算

适用人群：
1、对大数据Spark感兴趣的在校生及应届毕业生。
2、对目前职业有进一步提升要求，希望从事大数据行业高薪工作的在职人员。
3、对大数据行业感兴趣的相关人员。