首页>课程更新>代码王国,尽在掌握,《大数据全系列》第14阶段更新

代码王国,尽在掌握,《大数据全系列》第14阶段更新

大数据全系列

 

本次更新内容为大数据第十阶段:Spark分布式计算框架:

 

本阶段所讲的Spark 是当前流行的基于内存计算的分布式框架,在 Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景,如果基于内存计算,计算速度比 Hadoop 生态圈中的MapReduce快100倍以上,如果是基于磁盘的计算,那么速度快10倍以上,所以Spark是当前大数据开发人员必备的技能之一。

 

适合人群:

1)掌握Hadoop及HDFS原理和使用

2)掌握MapReduce原理及代码编写

3)掌握Scala语言编程

4)掌握zookeeper、Hive、Hbase原理及使用

 

第一章 Spark分布式计算框架核心基础

01_Spark核心_Spark分布式计算框架介绍

02_Spark核心_Spark分布式计算框架技术栈介绍

03_Spark核心_Spark分布式计算框架Spark发展历程及与MapReduce处理模式对比

04_Spark核心_Spark分布式计算框架 Maven安装及Scala&Java Maven项目创建

05_Spark核心_Spark分布式计算框架 Spark-Scala版本WordCount代码实战

06_Spark核心_Spark分布式计算框架 Spark-Java版本WordCount代码实战

07_Spark核心_Spark分布式计算框架 SparkScala与SparkJava代码简化风格

08_Spark核心_Spark分布式计算框架 Spark代码对象解释及WordCount排序

09_Spark核心_Spark分布式计算框架 Spark核心RDD原理

10_Spark核心_Spark分布式计算框架 Spark核心RDD深层次剖析

11_Spark核心_Spark分布式计算框架 SparkRDD补充及专业术语解释

12_Spark核心_Spark分布式计算框架 Spark算子分类介绍

13_Spark核心_Spark分布式计算框架 Spark Transformation算子与Action算子特点

14_Spark核心_Spark分布式计算框架 Spark Transformation算子之filter算子实操

15_Spark核心_Spark分布式计算框架 Spark Transformation算子之map&flatMap&reduceByKey&sortByKey算子实操

16_Spark核心_Spark分布式计算框架 Spark Transformation算子之sample算子实操

17_Spark核心_Spark分布式计算框架 Spark Action算子之foreach&count&take&first&collect算子实操

18_Spark核心_Spark分布式计算框架 Spark 代码流程与创建RDD的方式

19_Spark核心_Spark分布式计算框架 Spark持久化算子介绍

20_Spark核心_Spark分布式计算框架 cache持久化算子实战操作

21_Spark核心_Spark分布式计算框架 persist持久化算子实战操作

22_Spark核心_Spark分布式计算框架 cache&persist 持久化算子需要注意问题

23_Spark核心_Spark分布式计算框架 checkpoint持久化算子实战操作及注意问题

 

第二章 Spark集群搭建、任务提交资源申请核心原理

01_Spark核心_Spark分布式计算框架 SparkStandalone集群搭建及端口修改

02_Spark核心_Spark分布式计算框架 基于SparkStandalone运行SparkPi任务

03_Spark核心_Spark分布式计算框架 Spark客户端搭建及基于 yarn 运行SparkPi任务

04_Spark核心_Spark分布式计算框架 Spark基于Standalone-client模式提交任务流程及特点

05_Spark核心_Spark分布式计算框架 Spark基于Standalone-cluster模式提交任务流程及特点

06_Spark核心_Spark分布式计算框架 Spark基于Yarn-client模式提交任务流程及特点

07_Spark核心_Spark分布式计算框架 Spark基于Yarn-cluster模式提交任务流程及特点

08_Spark核心_Spark分布式计算框架 Spark资源层面与任务层面名词解释

09_Spark核心_Spark分布式计算框架 Spark RDD 宽窄依赖关系

10_Spark核心_Spark分布式计算框架 Spark Stage核心原理

11_Spark核心_Spark分布式计算框架 Spark Stage注意问题及验证pipeline计算模式

12_Spark核心_Spark分布式计算框架 Spark 任务调度流程及重试机制

13_Spark核心_Spark分布式计算框架 Spark 资源调度和任务调度流程及原理

14_Spark核心_Spark分布式计算框架 粗粒度资源申请和细粒度资源申请

 

第三章 Spark 算子实战及案例分析操作

01_Spark核心_SparkTransformation类算子_Join算子实战操作

02_Spark核心_SparkTransformation类算子_leftOuterJoin&rightOuterJoin&fullOuterJoin算子实战操作

03_Spark核心_SparkTransformation类算子_union算子实战操作

04_Spark核心_SparkTransformation类算子_interection&subtract算子实战操作

05_Spark核心_SparkTransformation类算子_mapPartitions算子实战操作

06_Spark核心_SparkTransformation类算子_distinct算子实战操作

07_Spark核心_SparkTransformation类算子_cogroup算子实战操作

08_Spark核心_SparkTransformation类算子_mapPartitionsWithIndex算子实战操作

09_Spark核心_SparkTransformation类算子repartition算子实战操作

10_Spark核心_SparkTransformation类算子coalesce算子实战操作

11_Spark核心_SparkTransformation类算子groupByKey算子实战操作

12_Spark核心_SparkTransformation类算子zip&zipWithIndex算子实战操作

13_Spark核心_SparkTransformation类算子mapValues算子实战操作

14_Spark核心_SparkAction类算子foreachPartition算子实战操作

15_Spark核心_SparkAction类算子collectAsMap算子实战操作

16_Spark核心_SparkAction类算子taskSample算子实战操作

17_Spark核心_SparkAction类算子top&takeOrdered算子实战操作

18_Spark核心_SparkAction类算子countByKey&countByValue算子实战操作

19_Spark核心_Spark案例分析之PV&UV数据生成

20_Spark核心_Spark案例分析之PV&UV Java api 实现

21_Spark核心_Spark案例分析之PV&UV Scala api 实现

22_Spark核心_Spark案例分析之二次排序 Java api 实现

23_Spark核心_Spark案例分析之二次排序 Scala api 实现

24_Spark核心_Spark案例分析之分组取topN Java api 实现

25_Spark核心_Spark案例分析之分组取topN Scala api 实现

26_Spark核心_Spark案例分析之统计正常卡扣信息业务实现

27_Spark核心_Spark案例分析之统计通过车辆数高的top5卡扣数据业务实现

28_Spark核心_Spark案例分析之统计通过车辆速度较高的top5卡扣信息业务实现

29_Spark核心_Spark案例分析之统计不同区域通过的相同车辆业务实现

30_Spark核心_Spark案例分析之车辆轨迹需求分析

31_Spark核心_Spark案例分析之车辆轨迹业务实现

 

第四章 Spark分布式计算框架核心源码分析

01_Spark核心_Spark源码之SparkSubmit 提交任务参数解释

02_Spark核心_Spark源码之Spark提交任务流程及创建对象

03_Spark核心_Spark源码之Spark通信环境及角色设计

04_Spark核心_Spark源码之源码导入及Master启动类介绍

05_Spark核心_Spark源码之Master启动源码RPCEnv创建

06_Spark核心_Spark源码之Master启动源码RPC处理通信消息流程

07_Spark核心_Spark源码之Master启动源码Master RPCEndpoint注册和启动Master

08_Spark核心_Spark源码之Worker启动源码Worker RPCEndpoint注册和启动Worker

09_Spark核心_Spark源码之SparkSubmit提交任务向Master申请启动Driver

10_Spark核心_Spark源码之SparkSubmit提交任务Worker节点启动DriverWrapper进程运行main方法

11_Spark核心_Spark源码之SparkSubmit提交任务AppClient 向Master申请Application资源

12_Spark核心_Spark源码之Application 资源调度01

13_Spark核心_Spark源码之Application 资源调度02

14_Spark核心_Spark源码之Application 资源调度资源划分总结

15_Spark核心_Spark源码之Worker节点按照划分的资源启动Executor

16_Spark核心_Spark源码之Spark任务调度job触发划分Stage过程

17_Spark核心_Spark源码之Spark任务调度task执行

18_Spark核心_Spark源码之资源调度结论验证01

19_Spark核心_Spark源码之资源调度结论验证02

 

第五章 Spark分布式计算框架核心高阶进阶

01_Spark核心_Spark高级应用之Spark广播变量原理

02_Spark核心_Spark高级应用之Spark广播变量代码实战

03_Spark核心_Spark高级应用之Spark累加器原理

04_Spark核心_Spark高级应用之Spark累加器代码实战

05_Spark核心_Spark高级应用之Spark自定义累加器代码实战

06_Spark核心_Spark高级应用之Spark自定义累加器Scala代码实战

07_Spark核心_Spark高级应用之SparkShell使用

08_Spark核心_Spark高级应用之Spark WebUI界面操作01

09_Spark核心_Spark高级应用之Spark WebUI界面操作02

10_Spark核心_Spark高级应用之Spark WebUI界面操作03

11_Spark核心_Spark高级应用之Spark 历史日志服务器配置及使用

12_Spark核心_Spark高级应用之Spark Master HA 原理及搭建

13_Spark核心_Spark高级应用之Spark Master HA 提交任务命令及测试

14_Spark核心_Spark高级应用之Spark Shuffle-HashShuffleManager机制原理

15_Spark核心_Spark高级应用之Spark Shuffle-SortShuffleManager机制原理

16_Spark核心_Spark高级应用之Spark Shuffle 文件寻址过程

17_Spark核心_Spark高级应用之Spark 内存管理两种机制

18_Spark核心_Spark高级应用之Spark Shuffle优化

 

第六章 Spark分布式计算框架之SparkSQL

01_SparkSQL_SparkSQL发展过程及演变历史

02_SparkSQL_SparkSQL底层操作对象及谓词下推

03_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 01

04_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 02

05_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 03

06_SparkSQL_SparkSQL读取Json格式的RDD加载DatFrame

07_SparkSQL_SparkSQL读取普通格式的RDD通过反射方式加载DatFrame

08_SparkSQL_SparkSQL读取普通格式的RDD通过动态创建Schema方式加载DatFrame

09_SparkSQL_SparkSQL读取Parquet格式的数据加载DatFrame

10_SparkSQL_SparkSQL读取csv格式的数据加载DatFrame

11_SparkSQL_SparkSQL读取Tuple类型的Dataset加载DatFrame

12_SparkSQL_SparkSQL读取MySQL表数据加载DatFrame

13_SparkSQL_Spark on Hive 配置及SparkSQL连接Hive测试

14_SparkSQL_Hive HQL与SparkSQL查询数据速度对比

15_SparkSQL_SparkSQL 读取Hive中的数据加载DataFrame 01

16_SparkSQL_SparkSQL 读取Hive中的数据加载DataFrame 02

17_SparkSQL_SparkSQL 自定义函数UDF实战应用

18_SparkSQL_SparkSQL 自定义聚合函数UDAF实战应用 01

19_SparkSQL_SparkSQL 自定义聚合函数UDAF实战应用 02

20_SparkSQL_SparkSQL Over 开窗函数实战使用 01

21_SparkSQL_SparkSQL Over 开窗函数实战使用 02

22_SparkSQL_经典案例分析_找出状态变化的行

23_SparkSQL_经典案例分析_不同场景统计用户访问网站总时长

24_SparkSQL_经典案例分析_读取JsonArray数据进行解析

25_SparkSQL_经典案例分析_读取Json字符串直接获取属性对应的值

26_SparkSQL_经典案例分析_读取嵌套的json格式的数据

27_SparkSQL_经典案例分析_数据表行列变化转换分析 01

28_SparkSQL_经典案例分析_数据表行列变化转换分析 02

29_SparkSQL_经典案例分析_用户登录网站7日留存数据统计分析

30_SparkSQL_经典案例分析_VpnLog 用户在线统计需求分析

31_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 01

32_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 02

33_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 03

 

第七章 Spark分布式计算框架之SparkStreaming

01_SparkStreaming_SparkStreaming介绍及各个计算框架对比

02_SparkStreaming_SparkStreaming读取Socket数据原理及流程

03_SparkStreaming_SparkStreaming读取Socket数据注意问题

04_SparkStreaming_SparkStreaming实时热词统计代码实战

05_SparkStreaming_SparkStreaming WebUI操作解释

06_SparkStreaming_SparkStreaming foreachRDD算子注意问题及代码实战

07_SparkStreaming_SparkStreaming transform算子注意问题及代码实战

08_SparkStreaming_SparkStreaming updateStateByKey 算子实战操作

09_SparkStreaming_SparkStreaming renduceByKeyAndWindow 算子实战操作

10_SparkStreaming_SparkStreaming renduceByKeyAndWindow 优化处理方式原理及实战操作

11_SparkStreaming_SparkStreaming window窗口函数实战操作

12_SparkStreaming_SparkStreaming 监控目录中的数据保存到磁盘中代码实战

13_SparkStreaming_SparkStreaming 其他算子介绍

14_SparkStreaming_Driver HA 实现 01

15_SparkStreaming_Driver HA 实现 02

16_Kafka分布式消息系统_Kafka分布式消息系统特点介绍

17_Kafka分布式消息系统_Kafka分布式消息系统架构介绍

18_Kafka分布式消息系统_Kafka分布式消息系统生产者模型及topic存储消息特点

19_Kafka分布式消息系统_Kafka分布式消息系统消费者模型特点

20_Kafka分布式消息系统_Kafka分布式消息系统特点总结

21_Kafka分布式消息系统_Kafka分布式消息系统知识点总结

22_Kafka分布式消息系统_Kafka集群搭建及启动脚本编写

23_Kafka分布式消息系统_Kafka 命令之查看topic&生产消费数据&查看组的消费信息

24_Kafka分布式消息系统_Kafka 命令之topic leader 均衡机制及删除topic命令

25_SparkStreaming_SparkStreaming1.6 + Kafka0.8.2 Receiver模式 整合原理

26_SparkStreaming_SparkStreaming1.6 + Kafka0.8.2 Direct模式 整合原理

27_SparkStreaming_SparkStreaming2.3 + Kafka011 Direct模式 整合及代码实战

28_SparkStreaming_Direct模式 代码验证及利用Kafka管理消费者offset 代码设置

29_SparkStreaming_Direct模式参数设置与特性解读

30_SparkStreaming_消费kafka数据offset维护方式介绍

31_SparkStreaming_消费kafka数据手动维护消费者offset代码

32_SparkStreaming_消费kafka数据手动维护消费者offset测试

33_SparkStreaming_消费kafka数据参数解释

 

 

 

另附各章节课程资料

 

 

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637