论坛元老
- 威望
- 198
- 贡献
- 286
- 热心值
- 21
- 金币
- 83979
- 注册时间
- 2020-8-31
|
课程目录:
1.大数据技术之Linux基础
第一天:
01.linux概述
02.安装vm和centos
03.安装vmtool工具
04.虚拟化技术和屏幕保护设置
05.linux目录结构
06.查看网络ip&配置网络ip地址
07.配置主机名称
08.防火墙
09.关机重启
10.远程登录
11.用户管理命令
13.常用快捷键
14.文件命令(上)
第二天:
00.回顾
01.vi编辑器一般模式
02.编辑模式和指令模式
03.文件目录类(下)
04.时间日期类
05.用户组管理命令
06.文件权限
07.磁盘分区类
08.搜索查找类
09.进程线程类
10.压缩和解压缩
11.crond定时任务
第三天:
01.回顾
02.rpm查询、卸载、安装
03.shell脚本的执行方式
04.shell中变量
05.运算符
06.条件判断
07.if判断
08.回顾上午内容
09.case
10.for循环
11.while
12.read
13.系统函数
14.自定义函数
15.网络版yum配置
16.本地yum配置
02.大数据技术之Hadoop
第一天:
01.课程介绍
02.大数据概念
03.大数据特点
04.大数据能干啥
05.发展前景
06.企业的组织结构
07.hadoop发展历史
08.hadoop三大发行版本
09.hadoop发展优势
10.hadoop组成
11-大数据生态体系
12.推荐系统框架图
13.hadoop安装环境准备
14.hadoop安装
15.hadoop官方案例1
16.hadoop官方案例2
17.伪分布式案例
18.HDFS常用命令
第二天:
01.bug总结
02.yarn上运行mr程序
03.修改临时目录
04.配置历史服务器
05.日志聚集功能
06.配置文件修改
07.虚拟机准备完成
08.scp命令
09.ssh
10.rsync
11.xsync脚本编写
12.xcall
13.集群规划
14.配置集群
15.集群测试
16.hadoop启动停止方式
17.集群时间同步
第三天:
00.编译源码
01.hdfs产生背景、概念、优缺点
02.hdfs文件块大小
03.hdfs命令行操作
04.hdfs客户端环境准备
05.获取文件系统
06.参数优先级
07.文件下载
08.创建目录
09.文件夹删除
10.修改文件名称
11.hdfs文件详情
12.判断文件还是文件夹
第四天:
01.回顾
02.io流的方式文件上传
03.io流的方式下载文件
04.io流文件的定位下载
05.hdfs写数据流程
06.网络拓扑概念
07.机架感知
08.hdfs读数据流程
09.一致性模型
10.nn和2nn工作机制
11.镜像文件和编辑日志
12.镜像文件和编辑日志2
13.滚动编辑日志
14.2nn端口号
15.检查点时间的修改
16.2nn目录结构
17.模拟namenode故障1
18.模拟namenode故障2
19.集群安全模式操作
20.namenode多目录配置
21.datanode工作机制
22.数据的完整性
23.掉线时限参数设置
24.datanode版本号
25.datanode多目录配置
第五天:
01.回顾
02.服役新节点
03.退役旧节点avi
04.集群间数据拷贝
05.hadoop归档
06.快照管理
07.回收站
08.hadoop入门和hdfs总结
09.MapReduce内容简介
10. MapReduce定义和优缺点
11.mapreduce核心思想
12.mapreduce编程规范
13.wordcount案例分析
14.wordcount案例代码完成
15.本地模式运行
第六天:
01.回顾
02.流量汇总需求1(分析 mapper reducer完成)
03.流量汇总需求1结束
04.并行度决定机制
05.提交job源码分析1
06.提交job流程和切片机制源码分析
07.combineTextInputformat
08.分区案例
09.手机流量需求3 排序
10.部分排序案例
第七天:
01.mr工作流程
02.maptask
03.combiner案例
04.mr工作流程2
05.二次排序bean对象
06.分组案例完成
07.排序
08.shuffle机制
09.inputformat案例
第八天:
01.自定义outputformat
02.reducejoin的map和bean对象
03.reducejoin的reduce类
04.reducejoin合并
05.mapjoin分布式缓存
06.总结
第九天:
00.回顾总结
01.日志清洗案例及计数器使用
02.多job串联案例
03.共同好友作业
04.reducetask工作机制
05.压缩
06.压缩2
07.压缩测试
08.测试解压缩
09.map端输出压缩和reduce端压缩输出
第十天:
01.yarn的概述和架构
02.yarn工作机制
03.job提交流程
04.公平调度器
05.推测执行算法
06.mr优化
07.hdfs小文件优化
08.inputformat实现类
09.找共同好友
03大数据技术之Zookeeper
01zk概述及工作机制
02zk特点
03zk数据结构
04zk应用场景
05zk下载地址
06zk本地模式安装
07zk选举机制
09节点类型
10zk完全分布式集群搭建
11客户端命令行操作
12stat结构体
13监听器原理
14写数据流程
15创建zk客户端
16创建子节点
17获取子节点
18判断节点是否存在
19服务器节点动态上下线分析
20服务器端代码
21客户端代码
04.大数据技术之Hive框架基础
第一天:
01.课程内容简介
02.什么是hive
03.hive的优缺点
04.hive架构原理
05.hive和数据库比较
06.hive安装地址
07.hive的安装部署
08.将本地文件导入hive案例,引出多个hive客户端问题
09.MySql中user表中主机配置
10.Hive元数据配置到MySql
11.hive交互命令
12.hive其他命令操作
13.hive的常见属性配置
14.hive数据类型
15.创建数据库
16.修改数据库
17.查询数据库
18.删除数据库
19.建表语法
20.管理表
第二天:
01.回顾
02.外部表
03.分区表基本操作和二级分区表
04.分区数据关联的三种方式
05.修改表
06.数据导入
07.数据导出
08.基本查询
09.where语句
10.分组
11.join
第三天:
01.排序
03.函数
04.压缩
05.存储
06.存储和压缩结合使用
07.Fetch抓取
08.本地模式
09.小表大表join
10.大表join大表
11.mapjoin
12.group by count
13.行列过滤
14.动态分区
15.数据倾斜
16.并行度执行
17.严格模式.JVM重用.推测执行.压缩
18.执行计划
19.hive总结
05.大数据技术之项目:Youtube
10、需求实现4
11、需求实现5
1、hive知识复习1
2、hive知识复习2
3、hive知识复习3
4、表结构梳理
6、建表操作
7、需求实现1
8、需求实现2
9、需求实现3
06.大数据技术之Sqoop
1、Sqoop的介绍和安装
2、额外脚本简述(与Sqoop无关)
3、Sqoop的import命令
4、Sqoop的export命令
5、Sqoop打包脚本
6、Sqoop其他命令简述
7、Sqoop其他命令详解
8、Sqoop详细参数1
9、Sqoop详细参数2
07.大数据技术之Flume
10、Flume监控之Ganglia
1、Flume在集群中的的定位
2、Flume流模型简介
3、Flume安装及第一个案例
4、Flume案例2
5、Flume案例2.2
6、Flume案例3
7、Flume案例3.2
8、Flume案例4
9、Flume案例5
08.大数据技术之kafka
1、kafka介绍、架构,原理等
2、kafka的部署
3、kafka控制台生产者与消费者
4、kafka生产者写入流程
5、kafka中zookeeper的目录结构
6、kafka消费流程
7、消费者组案例
8、kafkaAPI思路梳理
9、kafka回顾整理
10、kafka ProducerAPI
11、Kafka 分区API、消费者API
12、Kafka拦截器API
13、Kafka StreamsAPI
09.大数据技术之HBase
第一天
1、HBase简介
2、HBase角色以及设计类比
3、HBase的部署
4、HBase shell的操作
第二天
1、HBase读数据流程精讲
2、HBase写数据流程精讲
3、HBaseAPI操作之Maven项目搭建以及创建表测试
4、HBaseAPI增删改查
5、HBase MapReduce1
第三天
10、HBase高可用
11、HDFS高可用
12、RM高可用
1、HadoopClasspath的配置问题
2、HBase MapReduce2
3、Hive与HBase关联的适配问题,重新编译源码1
4、Hive与HBase关联的适配问题,重新编译源码2
5、Hive与HBase关联的适配问题,重新编译源码3
6、Sqoop与HBase
7、HBase常用命令
8、HBase数据的备份与恢复
9、HBase的节点管理
第四天
10、预分区与rowkey设计
11、hbase属性优化
12、总结
1、微博项目讲解
2、微博初始化命名空间,表
3、初始化3张表实现细节
4、微博项目,发布微博
5、微博项目,添加关注
6、微博项目,取关,浏览微博
7、微博项目,测试
8、通用型优化
9、zookeeper优化
10.大数据技术之Hadoop-HA
1.尚硅谷大数据技术之NameNode-HA配置(一)
2.尚硅谷大数据技术之NameNode-HA配置(二)
3.尚硅谷大数据技术之ResourceManager-HA配置(三)
4.尚硅谷大数据技术之ResourceManager-HA配置(三)
11.大数据技术之Oozie
1、oozie介绍
2、hadoop复习之CDH版本hadoop
3、oozie部署之配置
4、oozie部署以及部署成功的页面展示
5、oozie案例1
6、oozie案例2
8、oozie相关小知识
9、oozie案例3
10、oozie案例4
11、oozie案例4结果展示
12.大数据技术之项目:电信客服
第一天:
1、运营商项目项目架构简介
2、项目开发环境介绍(系统,框架,开发工具等)
3、idea工具基本设置之Maven
4、idea工具基本操作设置
5、idea新建项目
6、生产数据的数据结构
7、构建模拟的数据
8、日志生产代码编写完成
9、日志生产,代码打包,测试
10、idea编码设置
11、kafka的初始化与主题创建
12、实时生产日志,flume采集,到kafka并测试成功
13、producer模块总结
14、新建ct.consumer项目,并构建常用工具类
15、通过kafka API实现消费数据到控制台,并成功测试
第二天
10、HBase上一个视频的遗留问题的解决(协处理器中的过滤逻辑错误,jar包运行时需要注意的问题)
1、前情回顾,以及项目整体再次梳理
2、封装HBaseAPI,判断表是否存在
3、封装HBaseAPI,初始化命名空间
4、设计Table的region分区键
5、设计rowkey的分区号
6、HbaseDAO的封装
7、写入实时数据到HBase测试成功
8、协处理器的编写与讲解
9、HBase协处理器测试以及遇到一些问题
第三天
11、迷茫知识点之梳理
12、数据分析:Mapper
13、数据分析:Reducer
1、HBase存储数据源码走读
2、HBase代码以及其他设置优化
3、HBase批量保存数据测试
4、HBase时间戳toBytes的一些问题,以及面试中遇到的乱码问题
5、anlysis阶段需求分析以及表结构探讨
6、Mysql表结构总结
7、Mysql结果表的创建
8、初始化数据分析工程module
9、封装JDBCUtil以及自定义输出Key的维度类型
第四天:
1、前一天知识梳理总结
2、Runner的Job组装
3、RecordWriter
4、维度转换:缓存键的生成
5、维度转换:封装实现1
5、维度转换:封装实现2
5、维度转换:封装实现3
6、OutputForamt封装
7、2个Bug的修复
8、又1个Bug的修复
9、RecordWriter封装完成
10、3个Bug,运行测试成功,并查验Mysql中的数据分析结果
第五天
1、MR源码走读理解OutputFormat
2、构建Web工程
3、构建JavaBean,DAO,SQL查询语句
4、构建Controller中返回的数据
5、运行测试Web项目查看返回结果
6、Web font显示数据
7、项目总结
|
|