论坛元老
- 威望
- 0
- 贡献
- 34
- 热心值
- 0
- 金币
- 4676
- 注册时间
- 2020-8-31
|
〖课程介绍〗:
本课程由国内高校知名大数据教师厦门大学林子雨老师主讲,由厦门大学数据库实验室团队提供配套课程服务。课程教材是林子雨老师编著的《Spark编程基础》(人民邮电出版社,ISBN:978-7-115-47598-5)。本课程属于“进阶级”大数据课程,需要读者已经学习过大数据导论课程,了解Hadoop、MapReduce、HDFS、HBase等大数据基础知识。如果没有学习过大数据导论课程,建议读者先在网易云课堂学习林子雨老师主讲的大数据入门课程《大数据技术原理与应用》,该课程的两个版本在网易云课堂和中国大学MOOC学习人数超过8万人,99%网友给予了五星级最高评价。本课程以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。课程共8章,每周一更新1章。 n* H/ w) ?: n1 p- ^
〖课程目录〗:0 E i! v: n. s( Y5 \# ]
章节1:大数据技术概述
课时1大数据时代11:12. l+ G* D1 P( f, L9 D8 U) s
课时2大数据概念08:28
课时3大数据的影响04:56
课时4大数据关键技术05:28" h% o2 `6 e, z
课时5大数据计算模式06:00! t/ G7 z2 n2 a! _/ N
课时6代表性大数据技术之Hadoop24:18
课时7代表性大数据技术之Spark08:48! |0 y$ n. S9 |
课时8代表性大数据技术之Flink和Beam05:40
课时9本章配套讲义PPT-第1章-大数据技术概述
章节2:Scala语言基础
课时10计算机的缘起07:019 r: ^; B7 C% s' \2 P( W. t
课时11编程范式08:18
课时12Scala简介05:06
课时13Scala的安装和使用方法10:02
课时14基本语法25:51
课时15控制结构10:21
课时16数据结构(容器、列表、集合、映射)25:15+ P1 w P7 E1 \3 c
课时17数据结构(迭代器、数组、元组)17:08$ g8 D$ r6 B, H# D& i* `
课时18类(类的定义和创建对象)08:43
课时19类(编译和执行)14:38" d& M7 v$ M, i2 N' |6 X8 @
课时20类(getter和setter方法)12:04
课时21类(构造器)15:01
课时22对象(单例对象和伴生对象)18:10' [5 I3 ^: {0 L
课时23对象(apply方法和update方法)16:11. J" @/ C. z0 n1 O
课时24继承07:09
课时25特质11:12
课时26模式匹配21:04
课时27函数定义(函数的类型和值)10:00. f5 ^4 S5 _( `
课时28函数定义(匿名函数和闭包)11:02
课时29函数定义(占位符语法)04:03& l: U7 q# X7 ~' h5 p2 r1 c( d
课时30针对集合的操作16:20
课时31函数式编程实例13:16
课时32本章配套讲义PPT-第2章-Scala语言基础
章节3:Spark的设计与运行原理
课时33Spark简介14:47+ T0 _9 e K( C+ T) W) z
课时34Scala简介03:56
课时35Spark与Hadoop的对比14:02
课时36Spark生态系统15:59
课时37基本概念和架构设计11:03
课时38Spark运行基本流程12:16" j! Y" D3 q/ |( b% N& w6 }
课时39RDD概念06:33% K/ Y! p9 E$ ^( v* `
课时40RDD操作03:45& T" l: W$ e7 g0 e5 K) f) _) ?
课时41RDD执行过程07:19
课时42RDD特性05:494 i4 c- @) e. g1 ?6 z
课时43RDD依赖关系和运行过程14:27
课时44Spark的部署和应用方式17:49
课时45本章配套讲义PPT-第3章-Spark的设计与运行原理 `. h0 \* Y% _: g' E
章节4:Spark安装和使用方法
课时46安装Spark11:156 i/ k4 `+ ] r G
课时47在Spark Shell中运行代码13:25
课时48编写Spark独立应用程序21:07; m. H- |3 f2 x; u' j" N
课时49第一个Spark应用程序:WordCount13:227 I1 W3 u* x$ P% j
课时50使用IntelliJ IDEA编写Spark应用程序02:037 I0 v+ U% f# b
课时51Spark集群环境搭建15:25. k; ^ s( h) O% X ]& |
课时52在集群上运行Spark应用程序09:52
课时53本章配套讲义PPT-第4章-Spark安装和使用方法
章节5:RDD编程9 S2 X" o9 U2 o3 J! \$ \ E
课时54RDD创建12:05
课时55RDD操作16:299 E! f% J2 y* T5 m
课时56RDD持久化07:24
课时57RDD分区27:50
课时58键值对RDD的创建06:21
课时59常用的键值对 RDD转换操作(reduceByKey)05:239 X1 ~& Q2 Q4 P( i
课时60常用的键值对RDD转换操作(groupByKey)04:30, ~. y6 j" M1 p1 d3 G) L, V. I
课时61常用的键值对RDD转换操作(reduceByKey和groupByKey的区别)14:20) B2 c3 Y, J8 H/ d
课时62常用的键值对RDD转换操作(keys、values和sortByKey)18:51
课时63常用的键值对RDD转换操作(mapValues和join)05:18" a( S$ s# A2 Z: V* t6 B
课时64常用的键值对RDD转换操作(一个综合实例)07:36) c) m y6 b6 i) w
课时65共享变量14:04" h# _4 n6 G# y9 J+ r9 q
课时66文件数据读写(文件系统数据读写)11:32
课时67文件数据读写(JSON文件数据读写)10:31
课时68读写HBase数据(HBase简介)11:26
课时69读写HBase数据(创建一个HBase表)06:30- _* S8 O$ [- d; l: H$ P
课时70读写HBase数据(配置Spark并编写程序读取HBase数据)12:45
课时71读写HBase数据(编写程序向HBase写入数据)13:28& o- `# p4 z+ i% v6 f* E6 O
课时72案例1:求TOP值12:43% f# z; y& z2 P/ P5 I5 v- ?
课时73案例2:求最大最小值10:44
课时74案例3:文件排序12:50
课时75案例4:二次排序21:247 l- Z7 N! k: e: i* L9 e
课时76案例5:连接操作27:28
课时77本章配套讲义PPT-第5章 RDD编程. q2 d9 a$ F6 i! i3 Z
章节6:Spark SQL9 q2 X0 M% ] T, W& k7 L7 z
课时78Spark SQL简介19:36
课时79DataFrame与RDD的区别05:25& t( E. Z0 z4 Y* p
课时80DataFrame的创建10:41
课时81利用反射机制推断RDD模式12:04
课时82使用编程方式定义RDD模式18:32
课时83把RDD保存成文件02:536 W' ^7 z* t+ ~/ P* s" k9 Z8 P
课时84读写Parquet02:56
课时85通过JDBC连接数据库16:50. W2 i# M+ M2 G
课时86本章配套讲义PPT-第6章-Spark SQL
章节7:Spark Streaming ?- p3 r4 w' n' t. f
课时87流计算概述17:27 p6 K% h- I% i& z7 M: j0 f
课时88Spark Streaming简介08:14
课时89DStream操作概述09:216 K, r& Y7 V8 ^; L2 `/ `, n
课时90文件流13:49# Y" t- J& `! L) K6 {
课时91套接字流22:33# \2 }. M. g4 p
课时92RDD队列流10:45
课时93使用 Kafka作为数据源(Kafka的安装和准备工作)14:29
课时94使用 Kafka作为数据源(编程方法)33:17
课时95DStream无状态转换操作06:50$ c$ }* `+ ~; D" f# p4 |
课时96DStream有状态转换操作26:239 [2 `9 D- [' f" ~4 i6 ^: @
课时97输出操作09:226 P5 u0 m8 ^8 j& i. |
课时98本章配套讲义PPT-第7章-Spark Streaming
章节8:Spark MLlib5 i3 Q& V/ _% L/ m: r
课时99Spark MLlib简介21:31
课时100机器学习工作流概念12:48$ x* h- J7 u U0 s
课时101构建一个机器学习工作流20:41 R- R0 X" Z- m! p& a% r" _8 [- g( i
课时102特征抽取:TF-IDF18:59, e( s# U/ C) l
课时103特征抽取:Word2Vec06:38: X) g# M* {6 J7 \( s+ W3 I% f$ y
课时104特征抽取:CountVectorizer05:288 x6 J- U: v4 ~
课时105逻辑斯蒂回归分类器21:19. e% S/ }* A% v7 V+ ~: i
课时106决策树分类器11:52" ~3 E C& U2 l3 d: h/ ?) z
课时107本章配套讲义PPT-第8章-Spark MLlib
|
|