2018年最新大数据spark日志系统实战视频教程附源码 10章
课程目录第1章初探大数据
本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识
1-1导学
1-2如何学好大数据
1-3开发环境介绍
1-4ooptb镜像文件使用介绍
1-5大数据
1-6hadoop概述
1-7hdfs概述及设计目标
1-8hdfs架构mp4
1-9hdfs副本机制
1-10hadoop下载jdk安装、
1-11机器参数设置
1-12hdfs核心配置文件内容配置
1-13hdfs格式化及启停
1-14hdfsshell常用操作
1-15HDFS优缺点
1-16MapReduce概述
1-17mapreduce编程模型及wordcount
1-18yarn产生背景
1-19yarn架构和执行流程
1-20-YARN环境搭建及提交作业到YARN上运行
1-21-Hive产生背景及Hive是什么
1-22-为什么要使用Hive及Hive发展历程
1-23-Hive体系架构及部署架构
1-24-Hive环境搭建
1-25-Hive基本使用
第2章Spark及其生态圈概述
Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍...
2-1-课程目录
2-2-Spark概述及特点
2-3-Spark产生背景
2-4-Spark发展历史
2-5-SparkSurvey
2-6-Spark对比Hadoop
2-7-Spark和Hadoop的协作性
第3章实战环境搭建
工欲善其事必先利其器,本章讲述Spark源码编译、SparkLocal模式运行、SparkStandalone模式运行
3-1-课程目录
3-2-Spark源码编译
3-3补录:Spark源码编译中的坑
3-4SparkLocal模式环境搭建
3-5SparkStandalone模式环境搭建
3-6Spark简单使用
第4章SparkSQL概述
SparkSQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQLonHadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从SparkSQL前世今生、SQLonHadoop框架、SparkSQL概述、愿景、架构,这几个角度进行展开讲解...
4-1课程目录
4-2-SparkSQL前世今生
4-3-SQLonHadoop常用框架介绍
4-4-SparkSQL概述
4-5-SparkSQL愿景
4-6-SparkSQL架构
第5章从Hive平滑过渡到SparkSQL
Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到SparkSQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式
5-1-课程目录
5-2-ASQLContext的使用
5-3-BHiveContext的使用
5-4-CSparkSession的使用(1)
5-4-CSparkSession的使用
5-5spark-shell&spark-sql的使用
5-6-thriftserver&beeline的使用
5-7-jdbc方式编程访问
第6章DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的产生背景、DataFrame对比RDD、DataFrameAPI操作等方面对DataFrame做详细的编程开发讲解
6-1-课程目录
6-2-DataFrame产生背景
6-3-DataFrame概述
6-4-DataFrame和RDD的对比
6-5-DataFrame基本API操作
6-6-DataFrame与RDD互操作方式一
6-7dataframe与rdd互操作方式
6-8-DataFrameAPI操作案例实战
6-9-Dataset概述及使用
第7章ExternalDataSource
SparkSQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用
7-1-课程目录
7-2-产生背景
7-3-概述
7-4-目标
7-5-操作Parquet文件数据
7-6-操作Hive表数据
7-7-操作MySQL表数据
7-8-Hive和MySQL综合使用
第8章SparkSQL愿景
本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序
8-1-ASparkSQL愿景之一写更少的代码(代码量和可读性)
8-2-BSparkSQL愿景之一写更少的代码(统一访问操作接口)
8-3-CSparkSQL愿景之一写更少的代码(强有力的API支持)
8-4-DSparkSQL愿景之一些更少的代码(Schema推导)
8-5-ESparkSQL愿景之一写更少的代码(SchemaMerge)
8-6-FSparkSQL愿景之一写更少的代码(PartitionDiscovery)
8-7-GSparkSQL愿景之一写更少的代码(执行速度更快)
8-8-SparkSQL愿景之二读取更少的数据
8-9-SparkSQL愿景之三让查询优化器帮助我们优化执行效率
8-10-SparkSQL愿景总结
第9章慕课网日志实战
本章使用SparkSQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及SparkonYARN。通过本实战项目将SparkSQL中的知识点融会贯通,达到举一反三的效果...
9-1-课程目录
9-2-用户行为日志概述
9-3-离线数据处理架构
9-30-性能调优之参数优化
9-4-项目需求
9-5imooc网主站日志内容构成
9-6数据清洗之第一步原始日志解析
9-7-数据清洗之二次清洗概述
9-8-数据清洗之日志解析
9-9-数据清洗之ip地址解析
9-10-数据清洗存储到目标地址
9-11-需求一统计功能实现
9-12-Scala操作MySQL工具类开发
9-13-需求一统计结果写入到MySQL
9-14-需求二统计功能实现
9-15-需求二统计结果写入到MySQL
9-16-需求三统计功能实现
9-17-需求三统计结果写入到MySQL
9-18-代码重构之删除指定日期已有的数据
9-19-功能实现之数据可视化展示概述
9-20-ECharts饼图静态数据展示
9-21-ECharts饼图动态展示之一查询MySQL中的数据
9-22-ECharts饼图动态展示之二前端开发
9-23-使用Zeppelin进行统计结果的展示
9-24-SparkonYARN基础
9-25-数据清洗作业运行到YARN上
9-26-统计作业运行在YARN上
9-27-性能优化之存储格式的选择
9-28-性能调优之压缩格式的选择mp4
9-29-性能优化之代码优化
第10章SparkSQL扩展和总结
本章将列举SparkSQL在工作中经常用到的方方方面的总结
10-1-课程目录
10-2-SparkSQL使用场景
10-3-SparkSQL加载数据
10-4-DataFrame与SQL的对比
10-5-Schema
10-6-SaveMode
10-7-处理复杂的JSON数据
10-8mp4
10-9-外部数据源
**** Hidden Message *****
好东西一定要支持!!!!!!!!!!!!!! xiexie fenxiang 2018年最新大数据spark日志系统实战视频教程附源码 10章 spark日志系统实战 {:2_34:}{:2_36:} 歇息分型啊噶 强烈支持楼主ing……
页:
[1]