论坛元老
- 威望
- 60
- 贡献
- 85
- 热心值
- 0
- 金币
- 14249
- 注册时间
- 2020-8-31
|
课程介绍:
spark入门到精通
课程目录:
第一章Spark核心编程
1.1、Spark基本工作原理与RDD-1
1.2、Spark基本工作原理与RDD-2
1.3、使用Java开发本地测试的wordcount程序-1
1.4、使用Java开发本地测试的wordcount程序-2
1.5、将java开发的wordcount程序提交到spark集群上运行
1.6、使用scala开发wordcount程序
1.7、使用spark-shell开发wordcount程序
1.8、SparkUI补充说明
1.9、spark-submit中的--master选项的补充说明(重要,必看!)
1.10、wordcount程序原理深度剖析
1.11、Spark架构原理
1.12、创建RDD(集合、本地文件、HDFS文件)-1
1.13、创建RDD(集合、本地文件、HDFS文件)-2
1.14、transformation和action讲解与原理剖析
1.15、案例:统计每行出现的次数(操作key-value对)
1.16、常用transformation和action操作概览
1.17、map案例实战:将集合中的数字乘以2
1.18、filter案例实战:过滤集合中的偶数
1.19、flatMap案例实战:将文本行拆分为单词
1.20、groupByKey案例实战:将每个班级的成绩进行分组
1.21、reduceByKey案例实战:统计每个班级的总分
1.22、sortByKey案例实战:按照学生成绩进行排序
1.23、join和cogroup案例实战:打印学生成绩
1.24、action操作开发实战
1.25、RDD持久化详解
1.26、共享变量(BroadcastVariable和Accumulator)
1.27、高级编程之基于排序机制的wordcount程序
1.28、使用Java实现二次排序
1.29、使用Scala实现二次排序
1.30、获取文本内最大的前3个数字
1.31、获取每个班级排名前3的成绩(分组取topn)
第二章Spark内核源码深度剖析
2.1、Spark内核架构深度剖析
2.2、宽依赖与窄依赖深度剖析
2.3、基于Yarn的两种提交模式深度剖析
2.4、基于yarn的提交模式的spark-env.sh配置补充
2.5、SparkContext原理剖析
2.6、SparkContext源码分析
2.7、Master主备切换机制原理剖析与源码分析
2.8、Master注册机制原理剖析与源码分析
2.9、Master状态改变处理机制原理剖析与源码分析
2.10、Master资源调度算法原理剖析与源码分析
2.11、Worker原理剖析与源码分析-1
2.12、Worker原理剖析与源码分析-2
2.13、job触发流程原理剖析与源码分析
2.14、stage划分算法原理剖析
2.15、DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)
2.16、TaskScheduler原理剖析与源码分析
2.17、Executor原理剖析与源码分析
2.18、Task原理剖析
2.19、Task源码分析
2.20、普通Shuffle操作的原理剖析
2.21、优化后的Shuffle操作的原理剖析
2.22、Shuffle读写源码分析
2.23、BlockManager原理剖析
2.24、BlockManager源码分析-1
2.25、BlockManager源码分析-2
2.26、CacheManager原理剖析
2.27、CacheManager源码分析
2.28、Checkpoint原理剖析
第三章Spark性能优化
3.1、性能优化概览
3.2、诊断内存的消耗
3.3、高性能序列化类库
3.4、优化数据结构
3.5、对多次使用的RDD进行持久化或Checkpoint
3.6、使用序列化的持久化级别
3.7、Java虚拟机垃圾回收调优
3.8、提高并行度
3.9、广播共享数据
3.10、数据本地化
3.11、reduceByKey和groupByKey
3.12、shuffle性能优化
|
|