流批一体架构和Flink技术实战
Gavin Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大数据架构师,擅长 MR 开发,基于 MR 的算法开发, Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。
浏览:6589次
详情 DETAILS

课程简介

本课程的大纲设置,注重的是Flink基础和核心技术的梳理和掌握,之后会对其中几个重要的技术点做深入分析。针对企业内训的需求,我们对大纲的设置,特别增加了学以致用的实战环节,让企业学员能够在学习完Flink技术知识后,具备将Flink应用到实际生产环境中的能力,通过短时间的技术学习,为公司创造价值和提高技术生产的效率。

本课程理论和实战相结合,能够通过实践学习Flink的核心知识点和应用场景。本课程的最大亮点是“Flink实时数据仓库项目实战”模块,通过真实的实时数仓项目,学员能够快速进入Flink项目的开发

目标收益

- 深入了解流批一体数据摄取、整合、处理和应用的解决方案和技术体系架构

- 了解Flink的典型应用场景和Flink在大型互联网的典型应用

- 深入了解Flink技术栈的功能和应用场景,对流批一体的解决方案和落地有深入的理解,并且能够落地

- 深入了解Flink编程模型及核心原理、DataSet API编程、DataStream API编程、Flink Table API&SQL编程、Time及Window操作、Flink 常用Connectors介绍、Flink监控和调优

- Flink实时数据仓库项目实战,了解实时数据仓库的技术架构、从数据摄取到数据展示的全链路数据实时处理的过程

- 学员能够自主独立的使用Flink进行实时数仓平台的开发工作

培训对象

- 大数据平台架构师

- 一线大数据开发人员

- 对Flink流批一体数据平台感兴趣的人员

课程周期

2天(12H)

课程大纲

时间

模块

内容

 

 

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

第一天

流批一体架构和实战

Ø 离线数仓技术架构和技术栈介绍

Ø 实时数仓架构架构和技术栈介绍

Ø 流批一体架构的优点

Ø 流批一体架构解决方案

Ø 流批一体架构技术栈详解

Ø 流批一体数据架构的设计

Ø 流批一体数据摄取、整合、处理和应用的解决方案

Ø 流批一体平台架构在互联的实战

Ø 美团流批一体平台架构分享

 

基于Flink流批一体数仓案例实战

Ø 滴滴基于Flink实现复杂事件处理的案例分享

— Flink+CEP

— Flink状态管理

— Flink运维和优化

— Flink容错机制

— Flink反压机制

— Flink任务的双链路备用

Ø 阿里巴巴基于Flink实时统计案例分享

— 阿里双十一实时架构分享

— 双流数据Join处理

— Flink流失实仓架构详解

— Flink CEP实时规则引擎详解

 

Flink 技术栈介绍 

 

Ø Flink Table API介绍

Ø Flink SQL介绍

Ø Flink CDC Connect介绍

Ø Flink CEP复杂事件处理

Ø Flink Gelly图计算应用

Ø Flink ML机器学习应用

Ø PyFlink数据分析和挖掘介绍 

Ø Flink Metrics 与监控

 

Flink有状态的计算、状态管理和容错

Ø 什么是有状态计算

Ø 有状态计算中的数据一致性挑战

Ø 理解state状态

Ø Operator State 的使用及Redistribute

Ø Keyed State的使用与Redistribute

Ø Broadcast State的使用

Ø Checkpoint核心原理剖析

Ø Checkpoint使用条件及使用步骤

Ø Checkpoint相关配置及重启策略

Ø Savepoint的触发、Job恢复及删除

 

Flink DataStream API原理和实战

Ø DataStream API介绍与使用

Ø DataStream编程模型

Ø DataStream类型与转换

Ø Pipeline与StreamGraph转换

Ø Transformation

Ø 时间概念与Watermark

Ø Windows窗口计算和多流合并

Ø 作业链和资源组

Ø Asynchronous I/O异步API

Ø Asynchronous I/O异步原理

 

Flink DataSet API介绍和实战

Ø DataSet API,Transformation

Ø 迭代计算

Ø 广播变量与分布式缓存

Ø 语义注解

Ø DataSetUtils工具类

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天

 

 

Flink Table API & SQL实战

Ø Flink table API原理和使用

Ø Flink SQL原理和使用

Ø TableEnviroment原理和使用

Ø Table Connector注册机制和使用

Ø TimeStamp与Watermark原理和实战

Ø Temporal Tables原理实战

Ø 多表关联实战

Ø 与Hive的集成实战

Ø 自定义TableSource、Table Sink和Table Factory实战

Ø Flink SQL Catalog原理

Ø 项目实战:基于Flink SQL实现数据统计分析

 

Flink Connector介绍和实战

ØFlink Connector数据源

Ø FlinkKafkaSource序列化、消费模式

Ø FlinkKafkaSource容错、动态分区及topic

Ø FlinkKafkaSink序列化、配置、分区与容错

Ø 自定义Source和Sink

 

Flink监控和优化

ØFlink Metric使用介绍

Ø Flink RestAPI介绍和使用

Ø Backpressure监控与优化

Ø Checkpointing监控与优化

Ø Flink内存管理和优化

Ø 窗口和事件事件调试

Ø HistoryServer服务介绍

 

Flink实时数据仓库项目实战

Ø项目导入IDEA和配置

Ø 项目需求和技术架构介绍

Ø 数据摄取模块介绍

   - 离线数据摄取(Sqoop)

   - 实时数据摄取(mysql+Canal+Kafka)

Ø 实时数据处理模块

  - 实时数据仓库分层架构

  - Flink+Kafka+Clickhouse数据处理

  - 维度和指标梳理

   - Clickhouse的SQL接口

  - Flink SQL 数据统计和分析

Ø 数据展示模块介绍

Ø 项目运行和效果展示

 

 

 


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1