assfang 发表于 2019-3-23 22:03

【spark基础】炼数成金 Spark大数据分析平台 8课

spark介绍:
2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark无疑是最大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。
授课对象:
有Java开发经验或Scala开发经验,最好了解Hadoop,Hive等使用经验。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值。

收获预期:
深入理解Spark的运行原理
学会搭建Spark,hadoop集群环境
完全掌握Spark编程基础,了解Spark运维的基础知识
完成大数据入门,可逐渐转岗大数据相关职位。

课程环境:
Spark版本:Spark1.4
准备环境:CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive,建议三台虚拟机。
然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。

课程目录:

1、Spark生态和安装部署
什么是Spark
Spark有什么
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone HA安装
Spark工具
Spark交互式工具spark-shell
Spark应用程序部署工具spark-submit

2、Spark编程模型和解析
Spark的编程模型
RDD的特点、操作、依赖关系
缓存策略
广播变量和累加器
Spark编程环境搭建
Spark编程实例

3、Spark运行架构和解析
Spark的运行架构
基本术语
运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark实例演示
Spark on Standalone实例演示
Spark on YARN实例演示

4、不得不说的hive
hive的运行架构
hive的安装
hive的实例演示
shark的简介

5、SparkSQL原理和实践
Spark的运行架构
Catalyst
sqlontext
hiveContext
ThriftServer和CLI
ThriftServer
CLI
SparkSQL的实例演示和编程
spark-shell实例演示
spark-sql实例演示
SparkSQL的编程

6、SparkStreaming原理和实践
SparkStreaming原理
SparkStreaming的原理
SparkStreaming的运行方式
DStream的特点和操作
SparkStreaming实例演示
网络数据演示
文本实例演示
Window操作演示

7、MLlib入门
什么是机器学习
MLlib的架构
Mllib实例演示
聚类算法演示
推荐系统演示   

8、GraphX入门
图论基础
GraphX的架构
GraphX实例演示
图的基本操作
PageRank演示




**** Hidden Message *****

姜维2018 发表于 2020-6-25 20:53

看看。。。。。。

javagoc680 发表于 2021-11-15 14:20

真是难得给力的帖子啊。
页: [1]
查看完整版本: 【spark基础】炼数成金 Spark大数据分析平台 8课