课程简介
本课程的大纲设置,注重的是Flink基础和核心技术的梳理和掌握,之后会对其中几个重要的技术点做深入分析。针对企业内训的需求,我们对大纲的设置,特别增加了学以致用的实战环节,让企业学员能够在学习完Flink技术知识后,具备将Flink应用到实际生产环境中的能力,通过短时间的技术学习,为公司创造价值和提高技术生产的效率。
本课程理论和实战相结合,能够通过实践学习Flink的核心知识点和应用场景。本课程的最大亮点是“Flink实时数据仓库项目实战”模块,通过真实的实时数仓项目,学员能够快速进入Flink项目的开发
目标收益
- 深入了解流批一体数据摄取、整合、处理和应用的解决方案和技术体系架构
- 了解Flink的典型应用场景和Flink在大型互联网的典型应用
- 深入了解Flink技术栈的功能和应用场景,对流批一体的解决方案和落地有深入的理解,并且能够落地
- 深入了解Flink编程模型及核心原理、DataSet API编程、DataStream API编程、Flink Table API&SQL编程、Time及Window操作、Flink 常用Connectors介绍、Flink监控和调优
- Flink实时数据仓库项目实战,了解实时数据仓库的技术架构、从数据摄取到数据展示的全链路数据实时处理的过程
- 学员能够自主独立的使用Flink进行实时数仓平台的开发工作
培训对象
- 大数据平台架构师
- 一线大数据开发人员
- 对Flink流批一体数据平台感兴趣的人员
课程周期
2天(12H)
课程大纲
时间 | 模块 | 内容 |
第一天 | 流批一体架构和实战 | Ø 离线数仓技术架构和技术栈介绍 Ø 实时数仓架构架构和技术栈介绍 Ø 流批一体架构的优点 Ø 流批一体架构解决方案 Ø 流批一体架构技术栈详解 Ø 流批一体数据架构的设计 Ø 流批一体数据摄取、整合、处理和应用的解决方案 Ø 流批一体平台架构在互联的实战 Ø 美团流批一体平台架构分享
|
基于Flink流批一体数仓案例实战 | Ø 滴滴基于Flink实现复杂事件处理的案例分享 — Flink+CEP — Flink状态管理 — Flink运维和优化 — Flink容错机制 — Flink反压机制 — Flink任务的双链路备用 Ø 阿里巴巴基于Flink实时统计案例分享 — 阿里双十一实时架构分享 — 双流数据Join处理 — Flink流失实仓架构详解 — Flink CEP实时规则引擎详解
| |
Flink 技术栈介绍
| Ø Flink Table API介绍 Ø Flink SQL介绍 Ø Flink CDC Connect介绍 Ø Flink CEP复杂事件处理 Ø Flink Gelly图计算应用 Ø Flink ML机器学习应用 Ø PyFlink数据分析和挖掘介绍 Ø Flink Metrics 与监控
| |
Flink有状态的计算、状态管理和容错 | Ø 什么是有状态计算 Ø 有状态计算中的数据一致性挑战 Ø 理解state状态 Ø Operator State 的使用及Redistribute Ø Keyed State的使用与Redistribute Ø Broadcast State的使用 Ø Checkpoint核心原理剖析 Ø Checkpoint使用条件及使用步骤 Ø Checkpoint相关配置及重启策略 Ø Savepoint的触发、Job恢复及删除
| |
Flink DataStream API原理和实战 | Ø DataStream API介绍与使用 Ø DataStream编程模型 Ø DataStream类型与转换 Ø Pipeline与StreamGraph转换 Ø Transformation Ø 时间概念与Watermark Ø Windows窗口计算和多流合并 Ø 作业链和资源组 Ø Asynchronous I/O异步API Ø Asynchronous I/O异步原理
| |
Flink DataSet API介绍和实战 | Ø DataSet API,Transformation Ø 迭代计算 Ø 广播变量与分布式缓存 Ø 语义注解 Ø DataSetUtils工具类
| |
第二天 |
Flink Table API & SQL实战 | Ø Flink table API原理和使用 Ø Flink SQL原理和使用 Ø TableEnviroment原理和使用 Ø Table Connector注册机制和使用 Ø TimeStamp与Watermark原理和实战 Ø Temporal Tables原理实战 Ø 多表关联实战 Ø 与Hive的集成实战 Ø 自定义TableSource、Table Sink和Table Factory实战 Ø Flink SQL Catalog原理 Ø 项目实战:基于Flink SQL实现数据统计分析
|
Flink Connector介绍和实战 | ØFlink Connector数据源 Ø FlinkKafkaSource序列化、消费模式 Ø FlinkKafkaSource容错、动态分区及topic Ø FlinkKafkaSink序列化、配置、分区与容错 Ø 自定义Source和Sink
| |
Flink监控和优化 | ØFlink Metric使用介绍 Ø Flink RestAPI介绍和使用 Ø Backpressure监控与优化 Ø Checkpointing监控与优化 Ø Flink内存管理和优化 Ø 窗口和事件事件调试 Ø HistoryServer服务介绍
| |
Flink实时数据仓库项目实战 | Ø项目导入IDEA和配置 Ø 项目需求和技术架构介绍 Ø 数据摄取模块介绍 - 离线数据摄取(Sqoop) - 实时数据摄取(mysql+Canal+Kafka) Ø 实时数据处理模块 - 实时数据仓库分层架构 - Flink+Kafka+Clickhouse数据处理 - 维度和指标梳理 - Clickhouse的SQL接口 - Flink SQL 数据统计和分析 Ø 数据展示模块介绍 Ø 项目运行和效果展示
|
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员