《大数据全系列》
本次更新内容为大数据第十四阶段:Spark分布式计算框架:
本阶段所讲的Spark 是当前流行的基于内存计算的分布式框架,在 Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景,如果基于内存计算,计算速度比 Hadoop 生态圈中的MapReduce快100倍以上,如果是基于磁盘的计算,那么速度快10倍以上,所以Spark是当前大数据开发人员必备的技能之一。
适合人群:
1)掌握Hadoop及HDFS原理和使用
2)掌握MapReduce原理及代码编写
3)掌握Scala语言编程
4)掌握zookeeper、Hive、Hbase原理及使用
第一章 Spark分布式计算框架核心基础 |
01_Spark核心_Spark分布式计算框架介绍 |
02_Spark核心_Spark分布式计算框架技术栈介绍 |
03_Spark核心_Spark分布式计算框架Spark发展历程及与MapReduce处理模式对比 |
04_Spark核心_Spark分布式计算框架 Maven安装及Scala&Java Maven项目创建 |
05_Spark核心_Spark分布式计算框架 Spark-Scala版本WordCount代码实战 |
06_Spark核心_Spark分布式计算框架 Spark-Java版本WordCount代码实战 |
07_Spark核心_Spark分布式计算框架 SparkScala与SparkJava代码简化风格 |
08_Spark核心_Spark分布式计算框架 Spark代码对象解释及WordCount排序 |
09_Spark核心_Spark分布式计算框架 Spark核心RDD原理 |
10_Spark核心_Spark分布式计算框架 Spark核心RDD深层次剖析 |
11_Spark核心_Spark分布式计算框架 SparkRDD补充及专业术语解释 |
12_Spark核心_Spark分布式计算框架 Spark算子分类介绍 |
13_Spark核心_Spark分布式计算框架 Spark Transformation算子与Action算子特点 |
14_Spark核心_Spark分布式计算框架 Spark Transformation算子之filter算子实操 |
15_Spark核心_Spark分布式计算框架 Spark Transformation算子之map&flatMap&reduceByKey&sortByKey算子实操 |
16_Spark核心_Spark分布式计算框架 Spark Transformation算子之sample算子实操 |
17_Spark核心_Spark分布式计算框架 Spark Action算子之foreach&count&take&first&collect算子实操 |
18_Spark核心_Spark分布式计算框架 Spark 代码流程与创建RDD的方式 |
19_Spark核心_Spark分布式计算框架 Spark持久化算子介绍 |
20_Spark核心_Spark分布式计算框架 cache持久化算子实战操作 |
21_Spark核心_Spark分布式计算框架 persist持久化算子实战操作 |
22_Spark核心_Spark分布式计算框架 cache&persist 持久化算子需要注意问题 |
23_Spark核心_Spark分布式计算框架 checkpoint持久化算子实战操作及注意问题 |
第二章 Spark集群搭建、任务提交资源申请核心原理 |
01_Spark核心_Spark分布式计算框架 SparkStandalone集群搭建及端口修改 |
02_Spark核心_Spark分布式计算框架 基于SparkStandalone运行SparkPi任务 |
03_Spark核心_Spark分布式计算框架 Spark客户端搭建及基于 yarn 运行SparkPi任务 |
04_Spark核心_Spark分布式计算框架 Spark基于Standalone-client模式提交任务流程及特点 |
05_Spark核心_Spark分布式计算框架 Spark基于Standalone-cluster模式提交任务流程及特点 |
06_Spark核心_Spark分布式计算框架 Spark基于Yarn-client模式提交任务流程及特点 |
07_Spark核心_Spark分布式计算框架 Spark基于Yarn-cluster模式提交任务流程及特点 |
08_Spark核心_Spark分布式计算框架 Spark资源层面与任务层面名词解释 |
09_Spark核心_Spark分布式计算框架 Spark RDD 宽窄依赖关系 |
10_Spark核心_Spark分布式计算框架 Spark Stage核心原理 |
11_Spark核心_Spark分布式计算框架 Spark Stage注意问题及验证pipeline计算模式 |
12_Spark核心_Spark分布式计算框架 Spark 任务调度流程及重试机制 |
13_Spark核心_Spark分布式计算框架 Spark 资源调度和任务调度流程及原理 |
14_Spark核心_Spark分布式计算框架 粗粒度资源申请和细粒度资源申请 |
第三章 Spark 算子实战及案例分析操作 |
01_Spark核心_SparkTransformation类算子_Join算子实战操作 |
02_Spark核心_SparkTransformation类算子_leftOuterJoin&rightOuterJoin&fullOuterJoin算子实战操作 |
03_Spark核心_SparkTransformation类算子_union算子实战操作 |
04_Spark核心_SparkTransformation类算子_interection&subtract算子实战操作 |
05_Spark核心_SparkTransformation类算子_mapPartitions算子实战操作 |
06_Spark核心_SparkTransformation类算子_distinct算子实战操作 |
07_Spark核心_SparkTransformation类算子_cogroup算子实战操作 |
08_Spark核心_SparkTransformation类算子_mapPartitionsWithIndex算子实战操作 |
09_Spark核心_SparkTransformation类算子repartition算子实战操作 |
10_Spark核心_SparkTransformation类算子coalesce算子实战操作 |
11_Spark核心_SparkTransformation类算子groupByKey算子实战操作 |
12_Spark核心_SparkTransformation类算子zip&zipWithIndex算子实战操作 |
13_Spark核心_SparkTransformation类算子mapValues算子实战操作 |
14_Spark核心_SparkAction类算子foreachPartition算子实战操作 |
15_Spark核心_SparkAction类算子collectAsMap算子实战操作 |
16_Spark核心_SparkAction类算子taskSample算子实战操作 |
17_Spark核心_SparkAction类算子top&takeOrdered算子实战操作 |
18_Spark核心_SparkAction类算子countByKey&countByValue算子实战操作 |
19_Spark核心_Spark案例分析之PV&UV数据生成 |
20_Spark核心_Spark案例分析之PV&UV Java api 实现 |
21_Spark核心_Spark案例分析之PV&UV Scala api 实现 |
22_Spark核心_Spark案例分析之二次排序 Java api 实现 |
23_Spark核心_Spark案例分析之二次排序 Scala api 实现 |
24_Spark核心_Spark案例分析之分组取topN Java api 实现 |
25_Spark核心_Spark案例分析之分组取topN Scala api 实现 |
26_Spark核心_Spark案例分析之统计正常卡扣信息业务实现 |
27_Spark核心_Spark案例分析之统计通过车辆数高的top5卡扣数据业务实现 |
28_Spark核心_Spark案例分析之统计通过车辆速度较高的top5卡扣信息业务实现 |
29_Spark核心_Spark案例分析之统计不同区域通过的相同车辆业务实现 |
30_Spark核心_Spark案例分析之车辆轨迹需求分析 |
31_Spark核心_Spark案例分析之车辆轨迹业务实现 |
第四章 Spark分布式计算框架核心源码分析 |
01_Spark核心_Spark源码之SparkSubmit 提交任务参数解释 |
02_Spark核心_Spark源码之Spark提交任务流程及创建对象 |
03_Spark核心_Spark源码之Spark通信环境及角色设计 |
04_Spark核心_Spark源码之源码导入及Master启动类介绍 |
05_Spark核心_Spark源码之Master启动源码RPCEnv创建 |
06_Spark核心_Spark源码之Master启动源码RPC处理通信消息流程 |
07_Spark核心_Spark源码之Master启动源码Master RPCEndpoint注册和启动Master |
08_Spark核心_Spark源码之Worker启动源码Worker RPCEndpoint注册和启动Worker |
09_Spark核心_Spark源码之SparkSubmit提交任务向Master申请启动Driver |
10_Spark核心_Spark源码之SparkSubmit提交任务Worker节点启动DriverWrapper进程运行main方法 |
11_Spark核心_Spark源码之SparkSubmit提交任务AppClient 向Master申请Application资源 |
12_Spark核心_Spark源码之Application 资源调度01 |
13_Spark核心_Spark源码之Application 资源调度02 |
14_Spark核心_Spark源码之Application 资源调度资源划分总结 |
15_Spark核心_Spark源码之Worker节点按照划分的资源启动Executor |
16_Spark核心_Spark源码之Spark任务调度job触发划分Stage过程 |
17_Spark核心_Spark源码之Spark任务调度task执行 |
18_Spark核心_Spark源码之资源调度结论验证01 |
19_Spark核心_Spark源码之资源调度结论验证02 |
第五章 Spark分布式计算框架核心高阶进阶 |
01_Spark核心_Spark高级应用之Spark广播变量原理 |
02_Spark核心_Spark高级应用之Spark广播变量代码实战 |
03_Spark核心_Spark高级应用之Spark累加器原理 |
04_Spark核心_Spark高级应用之Spark累加器代码实战 |
05_Spark核心_Spark高级应用之Spark自定义累加器代码实战 |
06_Spark核心_Spark高级应用之Spark自定义累加器Scala代码实战 |
07_Spark核心_Spark高级应用之SparkShell使用 |
08_Spark核心_Spark高级应用之Spark WebUI界面操作01 |
09_Spark核心_Spark高级应用之Spark WebUI界面操作02 |
10_Spark核心_Spark高级应用之Spark WebUI界面操作03 |
11_Spark核心_Spark高级应用之Spark 历史日志服务器配置及使用 |
12_Spark核心_Spark高级应用之Spark Master HA 原理及搭建 |
13_Spark核心_Spark高级应用之Spark Master HA 提交任务命令及测试 |
14_Spark核心_Spark高级应用之Spark Shuffle-HashShuffleManager机制原理 |
15_Spark核心_Spark高级应用之Spark Shuffle-SortShuffleManager机制原理 |
16_Spark核心_Spark高级应用之Spark Shuffle 文件寻址过程 |
17_Spark核心_Spark高级应用之Spark 内存管理两种机制 |
18_Spark核心_Spark高级应用之Spark Shuffle优化 |
第六章 Spark分布式计算框架之SparkSQL |
01_SparkSQL_SparkSQL发展过程及演变历史 |
02_SparkSQL_SparkSQL底层操作对象及谓词下推 |
03_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 01 |
04_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 02 |
05_SparkSQL_SparkSQL读取Json格式的数据加载DatFrame 03 |
06_SparkSQL_SparkSQL读取Json格式的RDD加载DatFrame |
07_SparkSQL_SparkSQL读取普通格式的RDD通过反射方式加载DatFrame |
08_SparkSQL_SparkSQL读取普通格式的RDD通过动态创建Schema方式加载DatFrame |
09_SparkSQL_SparkSQL读取Parquet格式的数据加载DatFrame |
10_SparkSQL_SparkSQL读取csv格式的数据加载DatFrame |
11_SparkSQL_SparkSQL读取Tuple类型的Dataset加载DatFrame |
12_SparkSQL_SparkSQL读取MySQL表数据加载DatFrame |
13_SparkSQL_Spark on Hive 配置及SparkSQL连接Hive测试 |
14_SparkSQL_Hive HQL与SparkSQL查询数据速度对比 |
15_SparkSQL_SparkSQL 读取Hive中的数据加载DataFrame 01 |
16_SparkSQL_SparkSQL 读取Hive中的数据加载DataFrame 02 |
17_SparkSQL_SparkSQL 自定义函数UDF实战应用 |
18_SparkSQL_SparkSQL 自定义聚合函数UDAF实战应用 01 |
19_SparkSQL_SparkSQL 自定义聚合函数UDAF实战应用 02 |
20_SparkSQL_SparkSQL Over 开窗函数实战使用 01 |
21_SparkSQL_SparkSQL Over 开窗函数实战使用 02 |
22_SparkSQL_经典案例分析_找出状态变化的行 |
23_SparkSQL_经典案例分析_不同场景统计用户访问网站总时长 |
24_SparkSQL_经典案例分析_读取JsonArray数据进行解析 |
25_SparkSQL_经典案例分析_读取Json字符串直接获取属性对应的值 |
26_SparkSQL_经典案例分析_读取嵌套的json格式的数据 |
27_SparkSQL_经典案例分析_数据表行列变化转换分析 01 |
28_SparkSQL_经典案例分析_数据表行列变化转换分析 02 |
29_SparkSQL_经典案例分析_用户登录网站7日留存数据统计分析 |
30_SparkSQL_经典案例分析_VpnLog 用户在线统计需求分析 |
31_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 01 |
32_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 02 |
33_SparkSQL_经典案例分析_VpnLog 用户在线统计SQL实现 03 |
第七章 Spark分布式计算框架之SparkStreaming |
01_SparkStreaming_SparkStreaming介绍及各个计算框架对比 |
02_SparkStreaming_SparkStreaming读取Socket数据原理及流程 |
03_SparkStreaming_SparkStreaming读取Socket数据注意问题 |
04_SparkStreaming_SparkStreaming实时热词统计代码实战 |
05_SparkStreaming_SparkStreaming WebUI操作解释 |
06_SparkStreaming_SparkStreaming foreachRDD算子注意问题及代码实战 |
07_SparkStreaming_SparkStreaming transform算子注意问题及代码实战 |
08_SparkStreaming_SparkStreaming updateStateByKey 算子实战操作 |
09_SparkStreaming_SparkStreaming renduceByKeyAndWindow 算子实战操作 |
10_SparkStreaming_SparkStreaming renduceByKeyAndWindow 优化处理方式原理及实战操作 |
11_SparkStreaming_SparkStreaming window窗口函数实战操作 |
12_SparkStreaming_SparkStreaming 监控目录中的数据保存到磁盘中代码实战 |
13_SparkStreaming_SparkStreaming 其他算子介绍 |
14_SparkStreaming_Driver HA 实现 01 |
15_SparkStreaming_Driver HA 实现 02 |
16_Kafka分布式消息系统_Kafka分布式消息系统特点介绍 |
17_Kafka分布式消息系统_Kafka分布式消息系统架构介绍 |
18_Kafka分布式消息系统_Kafka分布式消息系统生产者模型及topic存储消息特点 |
19_Kafka分布式消息系统_Kafka分布式消息系统消费者模型特点 |
20_Kafka分布式消息系统_Kafka分布式消息系统特点总结 |
21_Kafka分布式消息系统_Kafka分布式消息系统知识点总结 |
22_Kafka分布式消息系统_Kafka集群搭建及启动脚本编写 |
23_Kafka分布式消息系统_Kafka 命令之查看topic&生产消费数据&查看组的消费信息 |
24_Kafka分布式消息系统_Kafka 命令之topic leader 均衡机制及删除topic命令 |
25_SparkStreaming_SparkStreaming1.6 + Kafka0.8.2 Receiver模式 整合原理 |
26_SparkStreaming_SparkStreaming1.6 + Kafka0.8.2 Direct模式 整合原理 |
27_SparkStreaming_SparkStreaming2.3 + Kafka011 Direct模式 整合及代码实战 |
28_SparkStreaming_Direct模式 代码验证及利用Kafka管理消费者offset 代码设置 |
29_SparkStreaming_Direct模式参数设置与特性解读 |
30_SparkStreaming_消费kafka数据offset维护方式介绍 |
31_SparkStreaming_消费kafka数据手动维护消费者offset代码 |
32_SparkStreaming_消费kafka数据手动维护消费者offset测试 |
33_SparkStreaming_消费kafka数据参数解释 |
另附各章节课程资料