领域数据中台建设
Mac Fan 查看讲师
百林哲咨询(北京)有限公司专家团队成员
现任某信息有限公司高级系统架构师,资深技术专家。从事软件研发工作近二十年,并且现在一直坚守在大型软件架构设计一线工作,尤其熟悉互联网架构与分析的特点,长期关注软件代码质量。
浏览:3924次
详情 DETAILS

简介

中国的IT产业经历了十多年的发展,已经获得了长足的进步。特别是近几年互联网的发展,让中国的IT产业迈向了世界先进行列。然而,未来的IT产业应当何去何从,新的增长点又在哪里呢?那就是数字产业、机器学习、人工智能。但当我们真正要开展这类业务时,却惊奇地发现,没有数据中台,我们什么都干不了。

2018年,阿里提出的“数据中台”概念后,各大厂商纷纷效仿,中国的IT产业开始向DT时代转型。然而,什么是数据中台?它与以往的BI商业智能系统、大数据平台与数据仓库有什么不同?又有哪些千丝万缕的联系呢?准确理解数据中台显得尤为重要。只有准确理解数据中台,才能少走弯路,正确构建属于我们自己的数据中台。

数据中台要求我们首先转变自己的思维模式和组织方式,以全新的业务模式与技术架构去迎接挑战。为了帮助大家准确理解数据中台概念,制订切实可行的数据中台发展战略,我们特此组织了此次课程。

课程时长

2天(12H)

受众人群

1、系统架构师、系统分析师、高级程序员、资深开发人员。

2、牵涉到海量数据处理的机构数据中心运行、规划、设计负责人。

3、云服务运营服务提供商规划负责人。

4、高校、科研院所牵涉到数据中台与大数据的项目负责人。

培训特色

本课程注重实战,范老师在数据中台建设相关领域从业多年,收集了大量的真实案例,会针对项目过程中常见的问题进行汇总、研讨,并最终形成培训教程。通过大量的真实案例,详细地介绍了数据中台建设过程中需要注意的要点以及难点,这些知识都是讲师十几年经验的总结。

分享提纲

基础篇

2H


简介:中国的信息化建设开始由IT向着DT转型,在未来的3-5年时间里,各行各业都会陆续建设起来自己的数据中台。只有有了数据中台作为基础,才能落地更多的人工智能应用。然而,什么是数据中台,它有什么功能,该如何建设?范老师从DT转型的过程开始梳理,帮助大家准确理解数据中台的建设。

目标收益:

1.准确理解什么是数据中台?准确理解数据驱动,以及数据价值变现?

2.如何在数据中台中实践“尽可能采集数据、更好地整理数据、有效地挖掘数据价值”?

3.如何将“自顶向下”与“自下而上”向结合,制订切实可行的数据中台建设路线图?

4.数据中台的技术架构该怎样最终落地到分布式大数据技术上?

一、从IT向DT的信息化转型

1.以部门为单位的IT建设及其局限

2.基于SOA架构的IT建设及其局限

3.互联网架构发展及其数据需求

结论:我们需要存储、处理、应用海量数据的能力

二、数据应用成熟度

1.查询统计:数据分散于各业务系统,无质量管控,应用价值低

2.决策支持:数据集中于数据仓库,有质量管控,但局限于数据库、数据采集手段等问题,最关键是:如何数据变现方式有限

3.数据中台:让数据产生价值(核心)

三、数据中台

1.尽可能多地收集数据

2.更好地整理归集数据

3.如何去挖掘数据的价值

四、数据中台的建设思路

1.自顶而下

2.自下而上

五、数据中台的技术架构


大数据篇

2H

简介:数据中台建设的底层技术框架是大数据技术。通过大数据技术,可以为数据中台提供丰富的手段,采集更多的数据、更高效处理数据,以及有更多的方式挖掘数据价值。那么,什么是大数据技术,它们有什么丰富的手段,怎么建设大数据技术中台,去支撑数据中台?范老师给你解惑。

目标收益:

1.了解大数据技术的运行原理,理解大数据为什么能够高效处理海量数据

2.掌握大数据有哪些丰富的技术,是如何支撑数据中台的各个层次的应用

3.掌握大数据技术中台的建设思路,如何封装技术框架、支撑业务应用

一、传统关系型数据库的设计局限

1.数据量 

2.计算能力 

3.数据复杂性

二、分布式大数据的设计理念

1. 分布式并行计算

2. 移动计算而不是移动数据

3. 分布式计算发展历程与未来趋势

三、大数据技术及其生态圈

1. Hadoop核心组件:MapReduce,HDFS

2. 并行计算框架:Spark vs. MapReduce

3. 在线查询:HBase与Impala

4. 流式计算:Flink vs. Spark Stream

5. 文本索引:Solr vs. ElasticSearch

6. Zookeeper与高可靠架构

7. Kafka分布式队列与日志收集

8. 数据挖掘工具:Mahout、SparkR与Spark ML

四、数据中台的大数据技术中台建设

1. 数据中台的大数据技术框架

2. 数据中台的大数据关键技术

1)Hadoop的工作原理与HDFS

2)Spark的工作原理与分布式内存计算

3. 数据中台的大数据技术中台建设

1)将技术框架与业务应用解耦

2)抽象共性、降本增效的思想方法

3)业务层、基础层与技术层的建设思

数据治理篇

2H

简介:在数据中台建设中,数据治理起到及其重要的作用,可以有效地进行数据质量管理,为后续的数据应用打下良好的基础。在本节课程中,范老师给你详细拆解,如何多样化地采集数据,如何设计ETL过程,进行数据质量管理,如何运用大数据技术构建数据仓库。

听众收益:

1.掌握大数据技术结构化与非结构化的数据采集

2.掌握数据中台的ETL过程与数据仓库建设实践

3.如何运用大数据技术进行ETL过程与数据仓库建设

一、数据中台中数据采集功能的建设思路

1. 结构化数据采集(Sqoop框架)及其案例实战

1)Sqoop数据导入设计实战

2)Sqoop数据导出设计实战

3)Sqoop在大数据技术中台中的设计思路

2. 非结构化数据采集(flume+kafka+spark streaming)及其案例实战

1)flume+kafka+spark streaming的设计原理

2)用户行为分析的应用实战

二、数据中台中的数据质量管理与数据仓库

1. ETL过程中数据清洗、转换、集成及其应用实战

2. 运用大数据技术进行ETL过程的应用实战

1)Spark+Hive的设计原理与实战

2)Spark+Hive在大数据技术中台中的设计思路

3. 多维数据模型与数据仓库建设

1)多维数据模型的概念及其应用实践

2)雪花模型、星形模型与主题域模型的建设过程

3)分享在数据仓库建设上遇到的那些“坑”及其解决思路

三、数据中台的质量体系建设

1. 数据体系规划:原始数据层、数据仓库层、数据集市层

2. 数据资产管理:资产规划、数据治理、标签管理

3. 数据质量管理:元数据管理、数据血缘管理

4. 数据仓库建设:多维数据建模、事实表、维度表、聚合表

数据应用篇

2H

简介:数据中台建设的核心就是数据驱动,也就是以数据价值变现为核心,思考如何挖掘数据价值、设计数据产品、形成数据应用,甚至是智能应用。范老师将通过一大波的应用案例,带领大家去探寻数据应用的神奇世界,挖掘数据应用世界的神奇宝藏,以及挖掘这些宝藏的金钥匙(思路与方法)

目标收益:

1.掌握数据价值变现的常见套路(可视化、风控、推荐、人工智能等)

2.掌握基于数据集市的数据建模过程(经验模型、数据模型)

3.掌握如何将数据应用落地到大数据技术中台建设

一、数据中台的核心是价值变现

1. 数据可视化

案例:网络运营商大数据监控系统建设过程

2. 数据风控

案例:税务系统虚开发票风险监控系统建设过程

3. 数字化运营

案例:用户行为分析与数字化运营的建设过程

4. 数据挖掘与人工智能

案例:远程智慧医疗平台的人工智能建设过程

二、数据集市的系统建设与数据标签

1. 数据集市的概念与应用举例

案例:税务系统虚开发票风险监控系统的数据集市应用

2. 数据血缘管理的概念及其设计

1)数据血缘管理在数据质量管理中的重要作用

2)数据血缘管理的相关设计及其实践

3. 数据标签的分析设计与开发

1)数据标签的类型与在数据分析中的作用

2)数据标签融合表及其设计实践

数据服务篇

2H

简介:数据中台经过一系列的分析处理之后,最终要对外提供数据服务才能价值变现。数据展现与数据服务是价值变现的最后一公里,也是客户对我们的产品质量最直观的感受。因此,数据服务需要提供良好的用户体验,就需要数据服务“快、准、美”。但在海量数据上如何做到呢?范老师为你解读。

目标收益:

1)掌握在海量数据中离线分析、在线分析与近线分析的设计思路

2)掌握在海量数据中秒级查询的设计思路(数据索引)与实践

3)理解打造支持快速数据分析展现的大数据技术中台建设思路

一、海量数据的离线分析、在线分析与近线分析

1. 离线分析的概念与设计实践

案例:税务系统虚开发票风险监控系统的风险数据离线分析

2. 在线分析的概念与设计实践

案例:网络运营商大数据监控系统的实时流量监控

3. 近线分析的概念与设计实践

案例:用户行为分析与数字化运营的分析设计过程

二、海量数据的秒级查询的设计实现

1. 分布式NoSQL数据库的设计实践

1)传统关系型数据库的局限与NoSQL数据库

2)MongoDB的工作原理与设计实践

3)HBase的工作原理与设计实践

2. 分布式索引ElasticSearch的设计实践

1)ElasticSearch的工作原理与设计实践

2)ElasticSearch的优化与在技术中台中的设计思路

3. 分布式MOLAP框架Kylin的设计实践

1)Kylin的工作原理与设计实践

2)Kylin的降维设计与性能优化

三、海量数据的数据服务与数据共享

1. 大数据分析报表系统的技术中台建设思路

2. 大数据服务共享平台的技术架构与建设思路


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1