论坛元老
- 威望
- 0
- 贡献
- 46
- 热心值
- 1
- 金币
- 5887
- 注册时间
- 2020-8-31
|
课程介绍〗:+ Z, K. \& D+ f7 S
本数据挖掘班,用实际数据说话,帮助学员在实际数据上更快成长。+ }3 t/ s- `5 e% d$ g0 g4 e
1 j! s/ v1 ~1 R9 V' }% P( r4 d
〖课程目录〗:* b; m+ r5 P& |
第1课 数据科学与数学基础) X5 ~. s" D+ H# M2 H" p
知识点1: 数据挖掘基础,微积分、概率论、线性代数基础
实战项目: 用numpy进行矩阵运算/ G& s% h3 Q/ e* j' ~% ^- C
第2课 数据处理/分析/可视化" D+ G8 u) \. Z+ |1 E
知识点1: 数据获取、数据格式、数据内容处理与分析、数据的可视化
实战项目: 用python解析和清洗数据,pandas统计与分析数据,matplotlib和seaborn等做可视化
第3课 海量数据的分布式处理: t* @/ a+ T9 N6 k: ~
知识点1: hadoop,Spark介绍,Map Reduce数据处理,hive与常见数据统计分析
实战项目: map reduce计数,文件关联与特征mapping,hiveql统计示例! k/ p- a7 P/ ~7 B
第4课 关联规则挖掘" j3 Y' t! c* ~/ L% Z% _
知识点1: 数据关联分析,海量数据的关联分析方案,A-Priori与PCY算法2 D3 S) v& R& R5 y2 e8 _' d( v
实战项目: 小型商业服务中的在线认证企业资料挖掘,人群背景与身份关联挖掘3 Y( v- I8 F& w% q# F$ i
第5课 数据与聚类1 m# i3 |' d9 h! I3 T8 R
知识点1: 聚类与社区发现算法,深度剖析Kmeans等算法! K* @( ^% f5 q' n2 Y
实战项目: Spark MLlib下的K-Means算法与GraphX下的Label-Propagation算法实践
第6课 海量高维数据与近似最近邻) Q* D1 u$ b& o. M! m: M: @
知识点1: 海量数据检索问题,近似最近邻(ANN)常用算法:LSH、KD-Tree、Kmeans-Tree
实战项目: 海量图像数据与最近图片检索
第7课 分类与排序( ~( Z4 g u. C! C- u9 v: n
知识点1: 有监督学习与分类,LR、SVM、深度神经网络与分类排序问题,样本高效训练' f+ J% y( H* i8 o: P
实战项目: kaggle分类问题、海量数据下电商的CTR预估问题& L ^) k" e; O2 ^9 Q
第8课 推荐系统+ b4 m, e; A" w7 L- S4 [+ t" M
知识点1: 基于内容的推荐算法,协同过滤,隐因子模型
实战项目: 基于用户/商品的协同过滤推荐,隐因子模型电影推荐
第9课 海量高维数据与维度约减( L% y; } D. s# g; [& k
知识点1: 数据降维与SVD,CUR分解/ x, W. \# _' o* x3 F
实战项目: SVD与PCA在推荐系统与数据压缩应用
第10课 PageRank与图挖掘8 a& ~7 T" y3 f& j7 T* ^& v0 R
知识点1: 海量数据构成的图关联分析,PageRank与网页搜索
实战项目: PageRank在图关联数据上的应用与排序
|
|