大数据中台技术原理与架构
John Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
硅谷海归软件工程师、架构师,曾供职阿里巴巴云梯、飞天及计算平台任高级技术专家
浏览:1357次
详情 DETAILS

课程简介

基于阿里十余年大数据中台的构建实战,从理论和实战的角度介绍大数据全商业流程的构建。

课程收益

从实战角度解密大数据中台的技术原理与架构,使企业快速掌握构建大数据中台的技术原理和构建能力,降低试错的成本。帮助企业厘清概念,解决实战中的问题。

受众人群

有一定数据开发经验的数据分析师、架构师。

有一定开发经验的软件工程师、架构师

课程周期

 1天(6H)

课程大纲

大数据中台的前世今生(Day 1 AM

数据到大数据的发展历程

集中式数据系统到大数据平台

系统成本压力与收益

分久必合的中台发展史

阿里大数据中台的发展历程

大数据中台系统的基本业务

离线计算业务

实时计算业务

Kappa架构和Lambda架构

推荐算法与机器学习业务

商业智能与报表业务

数据产品化及数据化运营

大数据中台系统的基本构成

文件存储系统

计算系统

资源调度系统

结构化存储引擎

有向无环图系统

上层查询引擎

作业调度管理系统

数据市场与数据治理

Hadoop生态系统举例

阿里飞天的生态系统举例

Hadoop分布式文件系统 Hadoop Distributed File System(HDFS)

HDFS组件与原理

Namenode主结点Master结点

Datanode从结点Slave结点

HDFS存储原理

应对集群故障

HDFS小文件管理

Hadoop分布式调度系统Yet Another Resource Negotiator() (Day 1 PM)

Resource Manager 主结点Master结点

Node Manager 从结点Slave结点

Application Master 应用可扩展主结点

开发自定义分布式计算程序

队列分配与资源分配

离线与在线混合部署

离线计算引擎 MapReduce

MapReduce基本原理

MapReduceYarn上实现

Shuffle的基本原理

Shuffle的调优

离线计算引擎Spark

Spark的基本原理

Spark的架构

开发一个Spark应用程序

Spark实际运算过程解析

使用Spark时注意的问题

实时计算引擎Flink

实时流处理与业务场景

Flink的基本原理

Flink应用实践

流式处理引擎的对比

Flink常用的优化手段

消息中间件Kafka

Kafka架构

Kafka基础原理

Kafka应用实践

Kafka常用配置

Kafka调优

上层查询引擎Hive (Day 2 AM)

Hive架构

Hive基本原理

大数据系统的元数据

Hive应用实践

数据倾斜问题

Hive 调优

结构化存储引擎HBase

HBase架构

HBase基本原理

HBase应用实践

云上多模式数据库

常见问题与调优

作业调度管理系统

AirFlow原理及使用

Oozie原理及使用

阿里天网

阿里飞天的架构及组成

盘古

伏羲

Max Compute

基于飞天的生态系统

数据市场与数据管理(Day 2 PM

元数据管理

数据市场

生命周期

极限存储系统

大数据中台的构成

大数据中台的能力构成与核心思想

大数据中台的价值:降低成本、提升效率、增进协作、服务客户

日新月益的业务及运营变化:商业赋能、数据展示、智能决策

数据资产管理:资产地图、资产分析、资产管理、资产应用、资产运营

统一数据服务:知识萃取中心、公共数据中心、垂直数据中心

智能数据研发:数据仓库规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警

计算平台:离线计算、实时计算、计算资源调度

分布式存储平台

大数据中台的运营

人力资源和团队的组织

财务上的控制

数据资产化

数据商业化

未来的演进

总结与讨论


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1