简介
基于开源大数据技术实训课程,该课程是一个理论与实践相结合的课程,课程只要包含spark技术栈的使用和优化内容。
目标
1、帮助学员对spark生态系统有一个清晰明了的认识;
2、理解spark系统适用的场景;
3、掌握spark等初中级应用开发技能;
4、搭建稳定可靠的spark集群,满足生产环境的标准;
5、了解和清楚大数据应用的几个行业中的经典案例课程时长
课程时长
2天(12H)
受众人群
企业一线的大数据开发人员、大数据平台运维人员、大数据平台优化人员等,具有1-3年左右的大数据基础。
分享提纲
第一天 | 一、Spark技术栈介绍 | 1.1Spark应用现状 1.2Spark应用优势 1.3Spark应用案例 1.4Spark生态发展介绍 1.5Spark 生态架构介绍 1.6Spark-Core介绍 1.7Spark SQL介绍 1.8Spark Streaming介绍 1.9Spark mllib介绍 1.10Spark GraphX介绍 1.11SparkR介绍 |
二、Spark编程模型和解析 | 2.1Spark的编程模型 2.2Spark编程模型解析 2.3Partition实现机制 2.4RDD的特点、操作、依赖关系 2.5Transformation RDD详解 2.6Action RDD详解 2.7Spark的累加器详解 2.8Spark的广播变量详解 2.9Spark容错机制 — lineage和checkpoint详解 2.10Spark的运行方式 2.11Spark的Shuffle原理详解 — Sort-Based原理 — Hash-Based原理 2.12Spark Partition详解 2.13Spark2.0的新特性 | |
三、Spark SQL原理和实践 | 3.1 Spark SQL原理 3.2Spark SQL的Catalyst优化器 3.3Spark SQL内核 3.4Spark SQL和Hive连接 3.5DataFrame和DataSet架构 3.6Fataframe、DataSet和Spark SQL的比较 3.7SparkSQL parquet格式实战 3.8Spark SQL的实例和编程 3.9Spark SQL的实例操作demo 3.10Spark SQL的编程 3.11Spark SQL学员实操训练 | |
第二天 | 四、Spark Streaming详解 | 4.1HDFS的元数据管理 4.2FSimage和Edit文件解析 4.3手动修改FSimage和Edit文件 4.4HDFS HA的架构运维解析 4.5Yarn服务运维详解 4.6Yarn核心配置参数的详解 4.7Hbase服务运维详解 4.8手动设置Split和Compaction操作 4.9RS宕机的运维处理 4.10Hbase 超大表的优化实践 |
五、Spark Mllib 数据挖掘 | 5.1SparkMllib和SparkR原理 5.2基于Spark Mllib和SparkR数据挖掘的流程5.3数据的抽取 5.4数据降维和升维 5.5稠密向量和稀疏向量数据处理 5.6基于DataFrame和DataSet的数据挖掘过 5.7SparkMllib和SparkR挖掘实战 5.8聚类算法Kmeans的实战和应用场景 5.9决策树算法的实战和应用场景 5.10逻辑回归算法实战和应用场景 5.11随机森林算法实战和应用场景 5.12回归算法算法实战案例 | |
六、Spark GraphX技术介绍 | 6.1Graphx架构个原理 6.2Graphx图的构建要素 6.3Graphx图操作介绍 6.4基于Graphx实现连通图、最短路径图介绍 6.5Graphx实现Pagerank介绍 6.6Graphx实现最小子图应用 6.7Graphx企业及应用架构 | |
七、Spark大数据案例分享 | 7.1Spark SQL日志分析实战 7.2Spark在传统(金融和电信)行业的使用介绍 |
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员