简介
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。
目标
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构,Spark、Hadoop实战技巧,Spark、Hadoop经典案例等。
通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握Spark、Hadoop等初中级应用开发技能;搭建稳定可靠的Spark、Hadoop集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
受众人群
各类IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。了解Spark及相关语言环境。
分享提纲
时间(阶段) | 模 块 | 培训大纲 |
第一天 (初级实战) | Spark 生态介绍 | Ø Mapreduce、storm和spark模型的比较和使用场景介绍 Ø Spark产生背景 Ø Spark(内存计算框架) Ø SparkSteaming(流式计算框架) Ø Spark SQL(ad-hoc) Ø Mllib(MachineLearning) Ø GraphX(bagel将被代) Ø DlinkDB介绍 Ø SparkR介绍
|
Spark 安装部署 | Ø Spark安装简介 Ø Spark的源码编译 Ø Spark Standalone安装 Ø Spark Standalone HA安装 Ø Spark应用程序部署工具spark-submit Ø Spark的高可用性部署 | |
Spark 运行架构和解析 | Ø Spark的运行架构 · 基本术语 · 运行架构 · Spark on Standalone运行过程 · Spark on YARN 运行过程 Ø Spark运行实例解析 · Spark on Standalone实例解析 · Spark on YARN实例解析 | |
Spark scala编程 | · Scala基本语法 · Scala开发环境搭建 · Scala开发Spark应用程序 · 使用java编程 · 使用scala编程 · 使用python编程 | |
Spark 编程模型和解析 | Ø Spark的编程模型 · Spark编程模型解析 · RDD的特点、操作、依赖关系 · Spark应用程序的配置 | |
第二天 (进阶实战) | Spark Streaming 原理和实践 | Ø Spark Streaming与Strom的区别 Ø Kafka的部署 Ø Kafka与Spark Streaming的整合 Ø Spark Streaming原理 · Spark流式处理架构 · DStream的特点 · Dstream的操作和RDD的区别 · Spark Streaming的优化 Ø Spark Streaming实例 · 文本实例 · 网络数据处理 · Kafka+Spark Streaming实现日志的实时分析案例 |
Spark SQL原理和实践 | Ø Spark SQL原理 · Spark SQL的Catalyst优化器 · Spark SQL内核 · Spark SQL和Hive Ø Spark SQL的实例和编程 · Spark SQL的实例操作demo · Spark SQL的编程 · DataFrame架构和原理 · DataFrame支持的统计和数学函数介绍 · 从RDD创建DataFrame · 从Hive表创建DataFrame · 从数据源创建DataFrame | |
第三天 (高级实战) | Spark的数据源 | Ø Spark与HDFS的整合 Ø HDFS RDD原理和实现 Ø Spark与Hbase的整合 Ø Spark与Cassendera整合 Ø Hbase RDD的分区读取 Ø Hbase RDD的原理和实现 Ø Spark parallelism RDD的工作机制 |
Spark 数据挖掘 | Ø Mllib的介绍 Ø graphX核心原理 Ø table operator和graph operator区别 Ø vertices、edges和triplets介绍 Ø 构建一个graph Ø SparkR原理 Ø SparkR实战 | |
典型项目 案例实战 | Ø 基于spark日志分析 Ø 个性化推荐系统:带你揭开其神秘面纱 Ø 在线投放引擎 Ø 揭开淘宝点击推荐系统的神秘面纱 Ø 淘宝数据服务架构—实时计算平台 | |
Spark的优化 | Ø 序列化优化——Kryo Ø Spark参数优化实战 Ø Spark 任务的均匀分布策略 Ø Partition key倾斜的解决方案 Ø Spark任务的监控 Ø GC的优化 Ø Spark Streaming吞吐量优化 Ø Spark RDD使用内存的优化策略 Ø Spark在使用中的感想分享 |
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员