您当前的位置:首页>课程>spark 应用与最佳实践

spark 应用与最佳实践

浏览:3422
分享

Joy Guo Read more

百林哲咨询(北京)有限公司专家团队成员

现就职于大型互联网企业从事大数据平台优化工作。多年Kafka和Spark/Hadoop/Storm研究、应用及调优经验,曾为诸多公司提供过培训咨询服务。

简介

大数据一般基于分而治之的思想,分布式地进行计算。经过十几年的发展,大数据生态圈涌现出一大批优秀的组件和框架,这些组件对一些底层技术做了封装,提供给程序员简单易用的API接口。在大数据分析和处理领域,Hadoop已经发展成为一个非常成熟的生态圈,涵盖了很多大数据相关的基础服务,Spark批处理方向建立了自己的优势。

 

本课程将从大数据的基石 Zookeeper入手进一步分析SparkSpark SQL的原理,以及实现SQL引擎的一般方法,通过对各种原理的介绍进一步引出批流一体大数据解决方案并对数据湖Trino 实践做出进一步讲解。

 

课程收益:

1. 熟悉SparkSpark SQL的原理及最佳实践

2. 了解Hive 原理Kafka Stream 原理分析与实践演练

3. 掌握批流一体大数据解决方案

4. 会运用所学到的知识解决实际遇到的问题

 

培训对象

运维工程师、架构师、大数据工程师、技术经理等


课程时长

4天

分享提纲

时间

标题

内容

第一天

大数据的基石 Zookeeper

1为什么需要 Zookeeper

2 Zookeeper 原理分析

3 Zookeeper 典型适用场景

Spark 核心原理

1 RDD vs. Dataframe

2 Shuffle 核心原理与性能调优

3 数据倾斜解决方案

Spark SQL 最佳实践

1 Spark SQL 原理剖析

2 基于规则的优化与基于代价的优化

3 自适应执行原理及调优实践

第二天

Hive 原理

1 Hive 架构介绍

2 Hive on MR 常见问题演示

3 Hive on TEZ 原理介绍

CDC 演示

1 什么是 CDC

2 canal 原理说明及演示

HBase

1 HBase 核心原理

2 HBase 适用场景与最佳实践

Kafka Stream 原理分析与实践演练

1 Kafka 基本原理

2 Streaming 常见问题

3 Kafka Stream 核心原理

4 Kafka Stream 案例演示

第三天

批流一体大数据解决方案

1 批计算 vs. 流计算

2 基于 Apache Beam 的批流一体

3 基于 Apache Spark 的批流一体

4 基于 Apache Flink 的批流一体

5 基于数据湖的批流一体存储

现代大数据架构

1 基于 HDFS + Hive + Spark 的数据仓库架构

2 基于 Flink + Kafka 的实时数据仓库

3 批流一体实时数据仓库

streaming machine learning

1 什么场景需要 streaming machine learning

2 streaming machine learning 典型方案

第四天

数据湖

1 什么是数据湖

2 什么是湖仓一体

3 delta lake / hudi / iceberg 对比分析

Trino 实践

1 Trino vs. Hive vs. Spark SQL

2 如何自定义函数

3 Trino 性能调优


我要参加

可同时提交您的需求,我们会及时与您联系

预约内训

将课程带入到您的团队,为您的团队进行一对一辅导。

相关课程