课程简介
基于阿里十余年大数据中台的构建实战,从理论和实战的角度介绍大数据全商业流程的构建。
课程收益
从实战角度解密大数据中台的技术原理与架构,使企业快速掌握构建大数据中台的技术原理和构建能力,降低试错的成本。帮助企业厘清概念,解决实战中的问题。
受众人群
有一定数据开发经验的数据分析师、架构师。
有一定开发经验的软件工程师、架构师
课程周期
1天(6H)
课程大纲
l 大数据中台的前世今生(Day 1 AM)
n 数据到大数据的发展历程
n 集中式数据系统到大数据平台
n 系统成本压力与收益
n 分久必合的中台发展史
n 阿里大数据中台的发展历程
l 大数据中台系统的基本业务
n 离线计算业务
n 实时计算业务
n Kappa架构和Lambda架构
n 推荐算法与机器学习业务
n 商业智能与报表业务
n 数据产品化及数据化运营
l 大数据中台系统的基本构成
n 文件存储系统
n 计算系统
n 资源调度系统
n 结构化存储引擎
n 有向无环图系统
n 上层查询引擎
n 作业调度管理系统
n 数据市场与数据治理
n Hadoop生态系统举例
n 阿里飞天的生态系统举例
l Hadoop分布式文件系统 Hadoop Distributed File System(HDFS)
n HDFS组件与原理
n Namenode主结点Master结点
n Datanode从结点Slave结点
n HDFS存储原理
n 应对集群故障
n HDFS小文件管理
l Hadoop分布式调度系统Yet Another Resource Negotiator() (Day 1 PM)
n Resource Manager 主结点Master结点
n Node Manager 从结点Slave结点
n Application Master 应用可扩展主结点
n 开发自定义分布式计算程序
n 队列分配与资源分配
n 离线与在线混合部署
l 离线计算引擎 MapReduce
n MapReduce基本原理
n MapReduce在Yarn上实现
n Shuffle的基本原理
n Shuffle的调优
l 离线计算引擎Spark
n Spark的基本原理
n Spark的架构
n 开发一个Spark应用程序
n Spark实际运算过程解析
n 使用Spark时注意的问题
l 实时计算引擎Flink
n 实时流处理与业务场景
n Flink的基本原理
n Flink应用实践
n 流式处理引擎的对比
n Flink常用的优化手段
l 消息中间件Kafka
n Kafka架构
n Kafka基础原理
n Kafka应用实践
n Kafka常用配置
n Kafka调优
l 上层查询引擎Hive (Day 2 AM)
n Hive架构
n Hive基本原理
n 大数据系统的元数据
n Hive应用实践
n 数据倾斜问题
n Hive 调优
l 结构化存储引擎HBase
n HBase架构
n HBase基本原理
n HBase应用实践
n 云上多模式数据库
n 常见问题与调优
l 作业调度管理系统
n AirFlow原理及使用
n Oozie原理及使用
n 阿里天网
l 阿里飞天的架构及组成
n 盘古
n 伏羲
n Max Compute
n 基于飞天的生态系统
l 数据市场与数据管理(Day 2 PM)
n 元数据管理
n 数据市场
n 生命周期
n 极限存储系统
l 大数据中台的构成
n 大数据中台的能力构成与核心思想
n 大数据中台的价值:降低成本、提升效率、增进协作、服务客户
n 日新月益的业务及运营变化:商业赋能、数据展示、智能决策
n 数据资产管理:资产地图、资产分析、资产管理、资产应用、资产运营
n 统一数据服务:知识萃取中心、公共数据中心、垂直数据中心
n 智能数据研发:数据仓库规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警
n 计算平台:离线计算、实时计算、计算资源调度
n 分布式存储平台
l 大数据中台的运营
n 人力资源和团队的组织
n 财务上的控制
n 数据资产化
n 数据商业化
n 未来的演进
l 总结与讨论
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员