Spark实战课程

用户登录 | 成为专家

Spark实战课程

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：9888次

详情 DETAILS

简介

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架，已经广为人知，且得到了广泛的应用，但MapReduce自身存在很多问题，包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下，不能很好地利用内存资源，编程复杂度较高等。为了克服MapReduce的众多问题，新型计算框架出现了。

目标

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构，Spark、Hadoop实战技巧，Spark、Hadoop经典案例等。

通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握Spark、Hadoop等初中级应用开发技能；搭建稳定可靠的Spark、Hadoop集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等。

受众人群

各类IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。了解Spark及相关语言环境。

分享提纲

时间(阶段）

模块

培训大纲

第一天

（初级实战）

Spark

生态介绍

Ø Mapreduce、storm和spark模型的比较和使用场景介绍

Ø Spark产生背景

Ø Spark（内存计算框架）

Ø SparkSteaming（流式计算框架）

Ø Spark SQL（ad-hoc）

Ø Mllib（MachineLearning）

Ø GraphX（bagel将被代）

Ø DlinkDB介绍

Ø SparkR介绍

Spark

安装部署

Ø Spark安装简介

Ø Spark的源码编译

Ø Spark Standalone安装

Ø Spark Standalone HA安装

Ø Spark应用程序部署工具spark-submit

Ø Spark的高可用性部署

Spark

运行架构和解析

Ø Spark的运行架构

· 基本术语

· 运行架构

· Spark on Standalone运行过程

· Spark on YARN 运行过程

Ø Spark运行实例解析

· Spark on Standalone实例解析

· Spark on YARN实例解析

Spark

scala编程

· Scala基本语法

· Scala开发环境搭建

· Scala开发Spark应用程序

· 使用java编程

· 使用scala编程

· 使用python编程

Spark

编程模型和解析

Ø Spark的编程模型

· Spark编程模型解析

· RDD的特点、操作、依赖关系

· Spark应用程序的配置

第二天

（进阶实战）

Spark Streaming

原理和实践

Ø Spark Streaming与Strom的区别

Ø Kafka的部署

Ø Kafka与Spark Streaming的整合

Ø Spark Streaming原理

· Spark流式处理架构

· DStream的特点

· Dstream的操作和RDD的区别

· Spark Streaming的优化

Ø Spark Streaming实例

· 文本实例

· 网络数据处理

· Kafka+Spark Streaming实现日志的实时分析案例

Spark

SQL原理和实践

Ø Spark SQL原理

· Spark SQL的Catalyst优化器

· Spark SQL内核

· Spark SQL和Hive

Ø Spark SQL的实例和编程

· Spark SQL的实例操作demo

· Spark SQL的编程

· DataFrame架构和原理

· DataFrame支持的统计和数学函数介绍

· 从RDD创建DataFrame

· 从Hive表创建DataFrame

· 从数据源创建DataFrame

第三天

（高级实战）

Spark的数据源

Ø Spark与HDFS的整合

Ø HDFS RDD原理和实现

Ø Spark与Hbase的整合

Ø Spark与Cassendera整合

Ø Hbase RDD的分区读取

Ø Hbase RDD的原理和实现

Ø Spark parallelism RDD的工作机制

Spark

数据挖掘

Ø Mllib的介绍

Ø graphX核心原理

Ø table operator和graph operator区别

Ø vertices、edges和triplets介绍

Ø 构建一个graph

Ø SparkR原理

Ø SparkR实战

典型项目

案例实战

Ø 基于spark日志分析

Ø 个性化推荐系统：带你揭开其神秘面纱

Ø 在线投放引擎

Ø 揭开淘宝点击推荐系统的神秘面纱

Ø 淘宝数据服务架构—实时计算平台

Spark的优化

Ø 序列化优化——Kryo

Ø Spark参数优化实战

Ø Spark 任务的均匀分布策略

Ø Partition key倾斜的解决方案

Ø Spark任务的监控

Ø GC的优化

Ø Spark Streaming吞吐量优化

Ø Spark RDD使用内存的优化策略

Ø Spark在使用中的感想分享

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

大数据分析应用

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

DeepSeek实现数据治理全链路智能化升级

大数据架构

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

流批一体架构和Flink技术实战

大数据基础技术

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

基于大数据平台数据建模和数据仓库设计

数据建模数据仓库

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Python机器学习

大数据基础技术

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Hadoop大数据实战课程

大数据基础技术

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

大数据（Hadoop、Spark、NOSQL）案例分析与实践

Hadoop、Spark、NOSQL

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Hadoop 开发、运维和调优实战

Hadoop,数据分析

关于我们案例市场合作 CSDI SUMMIT

企业服务热线：400-106-2080

电话：18519192882

投诉建议邮箱：venus@bailinzhe.com

合作邮箱：service@bailinzhe.com

总部地址：

北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73（园区）

全国客户服务中心：

天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803

公众号

百林哲咨询（北京）有限公司

京ICP备2022035414号-1