流批一体架构和Flink技术实战

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：9538次

详情 DETAILS

课程简介

本课程的大纲设置，注重的是Flink基础和核心技术的梳理和掌握，之后会对其中几个重要的技术点做深入分析。针对企业内训的需求，我们对大纲的设置，特别增加了学以致用的实战环节，让企业学员能够在学习完Flink技术知识后，具备将Flink应用到实际生产环境中的能力，通过短时间的技术学习，为公司创造价值和提高技术生产的效率。

本课程理论和实战相结合，能够通过实践学习Flink的核心知识点和应用场景。本课程的最大亮点是“Flink实时数据仓库项目实战”模块，通过真实的实时数仓项目，学员能够快速进入Flink项目的开发

目标收益

- 深入了解流批一体数据摄取、整合、处理和应用的解决方案和技术体系架构

- 了解Flink的典型应用场景和Flink在大型互联网的典型应用

- 深入了解Flink技术栈的功能和应用场景，对流批一体的解决方案和落地有深入的理解，并且能够落地

- 深入了解Flink编程模型及核心原理、DataSet API编程、DataStream API编程、Flink Table API&SQL编程、Time及Window操作、Flink 常用Connectors介绍、Flink监控和调优

- Flink实时数据仓库项目实战，了解实时数据仓库的技术架构、从数据摄取到数据展示的全链路数据实时处理的过程

- 学员能够自主独立的使用Flink进行实时数仓平台的开发工作

培训对象

- 大数据平台架构师

- 一线大数据开发人员

- 对Flink流批一体数据平台感兴趣的人员

课程周期

2天（12H）

课程大纲

时间

模块

内容

第一天

流批一体架构和实战

Ø 离线数仓技术架构和技术栈介绍

Ø 实时数仓架构架构和技术栈介绍

Ø 流批一体架构的优点

Ø 流批一体架构解决方案

Ø 流批一体架构技术栈详解

Ø 流批一体数据架构的设计

Ø 流批一体数据摄取、整合、处理和应用的解决方案

Ø 流批一体平台架构在互联的实战

Ø 美团流批一体平台架构分享

基于Flink流批一体数仓案例实战

Ø 滴滴基于Flink实现复杂事件处理的案例分享

— Flink+CEP

— Flink状态管理

— Flink运维和优化

— Flink容错机制

— Flink反压机制

— Flink任务的双链路备用

Ø 阿里巴巴基于Flink实时统计案例分享

— 阿里双十一实时架构分享

— 双流数据Join处理

— Flink流失实仓架构详解

— Flink CEP实时规则引擎详解

Flink 技术栈介绍

Ø Flink Table API介绍

Ø Flink SQL介绍

Ø Flink CDC Connect介绍

Ø Flink CEP复杂事件处理

Ø Flink Gelly图计算应用

Ø Flink ML机器学习应用

Ø PyFlink数据分析和挖掘介绍

Ø Flink Metrics 与监控

Flink有状态的计算、状态管理和容错

Ø 什么是有状态计算

Ø 有状态计算中的数据一致性挑战

Ø 理解state状态

Ø Operator State 的使用及Redistribute

Ø Keyed State的使用与Redistribute

Ø Broadcast State的使用

Ø Checkpoint核心原理剖析

Ø Checkpoint使用条件及使用步骤

Ø Checkpoint相关配置及重启策略

Ø Savepoint的触发、Job恢复及删除

Flink DataStream API原理和实战

Ø DataStream API介绍与使用

Ø DataStream编程模型

Ø DataStream类型与转换

Ø Pipeline与StreamGraph转换

Ø Transformation

Ø 时间概念与Watermark

Ø Windows窗口计算和多流合并

Ø 作业链和资源组

Ø Asynchronous I/O异步API

Ø Asynchronous I/O异步原理

Flink DataSet API介绍和实战

Ø DataSet API，Transformation

Ø 迭代计算

Ø 广播变量与分布式缓存

Ø 语义注解

Ø DataSetUtils工具类

第二天

Flink Table API & SQL实战

Ø Flink table API原理和使用

Ø Flink SQL原理和使用

Ø TableEnviroment原理和使用

Ø Table Connector注册机制和使用

Ø TimeStamp与Watermark原理和实战

Ø Temporal Tables原理实战

Ø 多表关联实战

Ø 与Hive的集成实战

Ø 自定义TableSource、Table Sink和Table Factory实战

Ø Flink SQL Catalog原理

Ø 项目实战：基于Flink SQL实现数据统计分析

Flink Connector介绍和实战

ØFlink Connector数据源

Ø FlinkKafkaSource序列化、消费模式

Ø FlinkKafkaSource容错、动态分区及topic

Ø FlinkKafkaSink序列化、配置、分区与容错

Ø 自定义Source和Sink

Flink监控和优化

ØFlink Metric使用介绍

Ø Flink RestAPI介绍和使用

Ø Backpressure监控与优化

Ø Checkpointing监控与优化

Ø Flink内存管理和优化

Ø 窗口和事件事件调试

Ø HistoryServer服务介绍

Flink实时数据仓库项目实战

Ø项目导入IDEA和配置

Ø 项目需求和技术架构介绍

Ø 数据摄取模块介绍

- 离线数据摄取（Sqoop）

- 实时数据摄取（mysql+Canal+Kafka）

Ø 实时数据处理模块

- 实时数据仓库分层架构

- Flink+Kafka+Clickhouse数据处理

- 维度和指标梳理

- Clickhouse的SQL接口

- Flink SQL 数据统计和分析

Ø 数据展示模块介绍

Ø 项目运行和效果展示

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

大数据分析应用

5318次

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

DAMA数据治理体系和DCMM数据成熟度评估实战培训

数据治理

AI技术

4859次

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

大数据（Hadoop、Spark、NOSQL）案例分析与实践

Hadoop、Spark、NOSQL