Spark企业级技术培训

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：4325次

详情 DETAILS

简介

基于开源大数据技术实训课程，该课程是一个理论与实践相结合的课程，课程只要包含spark技术栈的使用和优化内容。

目标

1、帮助学员对spark生态系统有一个清晰明了的认识；

2、理解spark系统适用的场景；

3、掌握spark等初中级应用开发技能；

4、搭建稳定可靠的spark集群，满足生产环境的标准；

5、了解和清楚大数据应用的几个行业中的经典案例课程时长

课程时长

2天（12H）

受众人群

企业一线的大数据开发人员、大数据平台运维人员、大数据平台优化人员等，具有1-3年左右的大数据基础。

分享提纲

第一天	一、Spark技术栈介绍	1.1Spark应用现状 1.2Spark应用优势 1.3Spark应用案例 1.4Spark生态发展介绍 1.5Spark 生态架构介绍 1.6Spark-Core介绍 1.7Spark SQL介绍 1.8Spark Streaming介绍 1.9Spark mllib介绍 1.10Spark GraphX介绍 1.11SparkR介绍
	二、Spark编程模型和解析	2.1Spark的编程模型 2.2Spark编程模型解析 2.3Partition实现机制 2.4RDD的特点、操作、依赖关系 2.5Transformation RDD详解 2.6Action RDD详解 2.7Spark的累加器详解 2.8Spark的广播变量详解 2.9Spark容错机制 — lineage和checkpoint详解 2.10Spark的运行方式 2.11Spark的Shuffle原理详解 — Sort-Based原理 — Hash-Based原理 2.12Spark Partition详解 2.13Spark2.0的新特性
	三、Spark SQL原理和实践	3.1 Spark SQL原理 3.2Spark SQL的Catalyst优化器 3.3Spark SQL内核 3.4Spark SQL和Hive连接 3.5DataFrame和DataSet架构 3.6Fataframe、DataSet和Spark SQL的比较 3.7SparkSQL parquet格式实战 3.8Spark SQL的实例和编程 3.9Spark SQL的实例操作demo 3.10Spark SQL的编程 3.11Spark SQL学员实操训练
第二天	四、Spark Streaming详解	4.1HDFS的元数据管理 4.2FSimage和Edit文件解析 4.3手动修改FSimage和Edit文件 4.4HDFS HA的架构运维解析 4.5Yarn服务运维详解 4.6Yarn核心配置参数的详解 4.7Hbase服务运维详解 4.8手动设置Split和Compaction操作 4.9RS宕机的运维处理 4.10Hbase 超大表的优化实践
	五、Spark Mllib 数据挖掘	5.1SparkMllib和SparkR原理 5.2基于Spark Mllib和SparkR数据挖掘的流程5.3数据的抽取 5.4数据降维和升维 5.5稠密向量和稀疏向量数据处理 5.6基于DataFrame和DataSet的数据挖掘过 5.7SparkMllib和SparkR挖掘实战 5.8聚类算法Kmeans的实战和应用场景 5.9决策树算法的实战和应用场景 5.10逻辑回归算法实战和应用场景 5.11随机森林算法实战和应用场景 5.12回归算法算法实战案例
	六、Spark GraphX技术介绍	6.1Graphx架构个原理 6.2Graphx图的构建要素 6.3Graphx图操作介绍 6.4基于Graphx实现连通图、最短路径图介绍 6.5Graphx实现Pagerank介绍 6.6Graphx实现最小子图应用 6.7Graphx企业及应用架构
	七、Spark大数据案例分享	7.1Spark SQL日志分析实战 7.2Spark在传统(金融和电信)行业的使用介绍