论坛元老
- 威望
- 0
- 贡献
- -3
- 热心值
- 1
- 金币
- 25747
- 注册时间
- 2019-3-17
|
第1阶段 linux和高并发
因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑。
主要内容:% v" R3 f: a5 @9 u% s: _4 u( q8 @" d( E
1.linux操作系统
2.linux基本命令8 w2 D- g' m0 A0 \6 ?
3.linux软件安装
4.shell编程
5.网络基础知识
6.lvs集群和高并发 p% V0 \+ P# {6 f- _$ w8 x) g+ G
7.nginx集群和高并发
8.keepalived和单点故障
第2阶段 hadoop体系之离线计算
Hadoop 是一款支持数据密集型分布式应用并以 Apache 2.0 许可协议发布的开源软件框架,它能搭建大型数据仓库,PB 级别数据的存储、处理、分析、统计等业务。编程语言你可以选,但 Hadoop 一定是大数据必学内容。0 y+ W, F5 n: T/ Q3 u
主要内容:8 }: w) z6 [: h$ _/ ~* Z1 P# c
1.hdfs分布式文件系统
2.mapreduce分布式计算& ^ ?8 [6 S3 B! _6 [# S
3.YARN-资源管理和任务调度
4.MAPREDUCE 案例
5.hive
6.hbase数据库* a1 w5 d9 n6 e9 @. Z* s1 K2 Y3 N% A
7.ZOOKEEPER协同处理3 y/ k' p% _) U7 z2 N. M
8.EL SEARCH搜索引擎
9.REDIS内存数据2 F( a4 q' \" A, C) I1 {
第3阶段 spark体系之分布式计算/ [+ g! h* f# P2 F4 m7 |+ N
Spark 和 Hadoop 都是大数据框架。Hadoop 提供了 Spark 所没有的功能特性,比如分布式文件系统,而 Spark 为需要它的那些数据集提供了实时内存处理。所以学习 Spark 也非常必要。1 e+ [9 N! N6 a$ Z* I
主要内容:/ i8 \& x/ i3 m. l5 F6 i
1.kafka分布式消息队列
2.scala分布式计算机开发语言& C; \. _& w7 `# e* M* y' F
3.spark-core之离线计算
4.spark-sql
5.spark-stream流式计算' a, Y% K' F3 C. d% C
6.STORM流式框架, k& A4 ] u& n) \0 {
第4阶段 机器学习与数据挖掘 V" I+ ]7 _$ {8 x7 d
大数据和机器学习经常一起出现,因为我们会使用机器学习这个工具做大数据的分析工作。机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。可以把机器学习看做我们做大数据分析的一个比较好用的工具。数据挖掘是指从数据中提取潜在的、有价值的信息。数据挖掘可以看成是对大数据处理的一种方式,但是大数据的处理方式并不止数据挖掘。
主要内容:
1.Python语言基础
2.回归算法
3.分类算法
4.聚类算法
5.推荐算法
第5阶段 大数据项目实战( P; C6 g A; p
通过大数据实战项目,对常用技能进行系统运用,例如使用常用的机器学习进行建模、分析和运算,这是成为大数据工程师过程中的重要一步。
主要内容:1.大型电商日志分析项目本项目主要是对hadoop生态体系的某些技术做一个总结,利用学到的技术做一个企业级的项目,了解各个技术在企业级项目中是如何使用的。本项目以电商网站做为基础,通过各种日志数据进行分析,对公司的产品做一些决策。+ S& T- a6 J: @0 s S
2.智慧交通卡口分析项目城市中每时每刻都会产生海量数据,应用数据挖掘、机器学习和可视化技术,分析出的数据可以改进城市规划,缓解交通拥堵,抓捕罪犯,利于大数据为交通决策提供辅助。智慧交通卡口分析项目就是基于海量数据挖据出问题卡口,问题通道,分析主干道拥堵情况,为决策者决策提供辅助。
3.智能APP推荐项目推荐系统是当前在机器学习领域非常火热的技术之一,商品推荐,产品推荐,个性化推荐,精准推荐都离不开推荐系统。智能app推荐项目主要是用户手机中应用商店中海量app给用户做个性化推荐app,提高用户体验度。
|
|