Spark实战课程
Gavin Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大数据架构师,擅长 MR 开发,基于 MR 的算法开发, Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。
浏览:7967次
详情 DETAILS

简介

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

目标

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构,Spark、Hadoop实战技巧,Spark、Hadoop经典案例等。

通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握Spark、Hadoop等初中级应用开发技能;搭建稳定可靠的Spark、Hadoop集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

受众人群

各类IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。了解Spark及相关语言环境。

分享提纲

时间(阶段)

模 块

培训大纲

第一天

(初级实战)

Spark

生态介绍

Ø Mapreduce、storm和spark模型的比较和使用场景介绍

Ø Spark产生背景

Ø Spark(内存计算框架)

Ø SparkSteaming(流式计算框架)

Ø Spark SQL(ad-hoc)

Ø Mllib(MachineLearning)

Ø GraphX(bagel将被代)

Ø DlinkDB介绍

Ø SparkR介绍

 

Spark

安装部署

Ø Spark安装简介

Ø Spark的源码编译

Ø Spark Standalone安装

Ø Spark Standalone HA安装

Ø Spark应用程序部署工具spark-submit

Ø Spark的高可用性部署

Spark

运行架构和解析

Ø Spark的运行架构

· 基本术语

· 运行架构

· Spark on Standalone运行过程

· Spark on YARN 运行过程

Ø Spark运行实例解析

 · Spark on Standalone实例解析

 · Spark on YARN实例解析

Spark

scala编程

 · Scala基本语法

 · Scala开发环境搭建

 · Scala开发Spark应用程序

 · 使用java编程

 · 使用scala编程

 · 使用python编程

Spark

编程模型和解析

Ø Spark的编程模型

 · Spark编程模型解析

 · RDD的特点、操作、依赖关系

 · Spark应用程序的配置

第二天

(进阶实战)

Spark Streaming

原理和实践

Ø Spark Streaming与Strom的区别

Ø Kafka的部署

Ø Kafka与Spark Streaming的整合

Ø Spark Streaming原理

 · Spark流式处理架构

 · DStream的特点

 · Dstream的操作和RDD的区别

 · Spark Streaming的优化

Ø Spark Streaming实例

 · 文本实例

 · 网络数据处理

 · Kafka+Spark Streaming实现日志的实时分析案例

Spark

SQL原理和实践

Ø Spark SQL原理

· Spark SQL的Catalyst优化器

· Spark SQL内核

· Spark SQL和Hive

Ø Spark SQL的实例和编程

 · Spark SQL的实例操作demo

 · Spark SQL的编程

 · DataFrame架构和原理

 · DataFrame支持的统计和数学函数介绍

 · 从RDD创建DataFrame

 · 从Hive表创建DataFrame

 · 从数据源创建DataFrame

第三天

(高级实战)

Spark的数据源

Ø Spark与HDFS的整合

Ø HDFS RDD原理和实现

Ø Spark与Hbase的整合

Ø Spark与Cassendera整合

Ø Hbase RDD的分区读取

Ø Hbase RDD的原理和实现

Ø Spark parallelism RDD的工作机制

Spark

数据挖掘

Ø Mllib的介绍

Ø graphX核心原理

Ø table operator和graph operator区别

Ø vertices、edges和triplets介绍

Ø 构建一个graph

Ø SparkR原理

Ø SparkR实战

典型项目

案例实战

Ø 基于spark日志分析

Ø 个性化推荐系统:带你揭开其神秘面纱

Ø 在线投放引擎

Ø 揭开淘宝点击推荐系统的神秘面纱

Ø 淘宝数据服务架构—实时计算平台

Spark的优化

Ø 序列化优化——Kryo

Ø Spark参数优化实战

Ø Spark 任务的均匀分布策略

Ø Partition key倾斜的解决方案

Ø Spark任务的监控

Ø GC的优化

Ø Spark Streaming吞吐量优化

Ø Spark RDD使用内存的优化策略

Ø Spark在使用中的感想分享

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1