课程简介
中国的IT产业经历了十多年的发展,已经获得了长足的进步。特别是近几年互联网的发展,让中国的IT产业迈向了世界先进行列。然而,未来的IT产业应当何去何从,新的增长点又在哪里呢?那就是数字产业、机器学习、人工智能。但当我们真正要开展这类业务时,却惊奇地发现,没有数据中台,我们什么都干不了。
2018年,阿里提出的“数据中台”概念后,各大厂商纷纷效仿,中国的IT产业开始向DT时代转型。然而,什么是数据中台?它与以往的BI商业智能系统、大数据平台与数据仓库有什么不同?又有哪些千丝万缕的联系呢?准确理解数据中台显得尤为重要。只有准确理解数据中台,才能少走弯路,正确构建属于我们自己的数据中台。
数据中台要求我们首先转变自己的思维模式和组织方式,以全新的业务模式与技术架构去迎接挑战。为了帮助大家准确理解数据中台概念,制订切实可行的数据中台发展战略,我们特此开设本课程。
本课程首先从数据中台的概念入手,讲解了:
1) 准确理解什么是数据中台?准确理解数据驱动,以及数据价值变现?
2) 如何在数据中台中实践“尽可能采集数据、更好地整理数据、有效地挖掘数据价值”?
3) 如何将“自顶向下”与“自下而上”向结合,制订切实可行的数据中台建设路线图?
然后,从实践地角度讲解了数据中台的技术架构该怎样最终落地到分布式大数据技术上。如何构建大数据技术平台,简化技术开发成本,构建大数据业务。在次基础上,开展更多的数据挖掘、人工智能业务。
课程收益
1. 了解数据中台的概念
2. 掌握分布式大数据的设计理念
3. 熟悉大数据采集建设思路
受众人群
1、系统架构师、系统分析师、高级程序员、资深开发人员。
2、牵涉到海量数据处理的机构数据中心运行、规划、设计负责人。
3、云服务运营服务提供商规划负责人。
4、高校、科研院所牵涉到数据中台与大数据的项目负责人。
课程周期
2天(12小时)
课程大纲
主题 | 授课内容 |
第一单元 数据中台的概念 | IT向DT的转型 1. 回顾这些年IT建设的发展历程 2. 当前IT建设遇到的瓶颈: 3. 当前信息化发展趋势:IT向DT 转型 数据中台的概念:持续地将业务数据转变为数据资产,并服务于业务 1. 尽可能多地汇聚业务数据,将数据拉通,形成数据资产 2. 尽可能地挖掘数据价值,用数据驱动业务发展 准确理解数据中台: 1. 数据中台 vs. 业务中台 2. 数据中台 vs. 数据平台 数据中台建设的内容: 1. 数据采集:数据定义、结构化数据采集、非结构化数据采集、流批一体化、数据湖建设 2. 数据治理:数据标准化、数据质量管理、ETL过程、数据仓库、主题数据模型、大数据存储 3. 数据应用:数据可视化、数据分析、数据挖掘、人工智能 数据中台的价值变现: 1. 数字化运营 2. 精准营销 3. 风险控制 4. 信息化服务 数据中台的建设步骤: 1. 现状分析 2. 架构规划 3. 资产治理 4. 数据应用 5. 运营维护 |
第二单元 什么是大数据 | 传统关系型数据库的设计局限: 1)数据量 2)计算能力 3)数据复杂性 分布式大数据的设计理念 1. 分布式并行计算 2. 移动计算而不是移动数据 3. 分布式计算发展历程与未来趋势 4. 如何进行大数据分析与应用 5. 大数据分析系统的架构设计 大数据的生态圈 1. Hadoop核心组件:MapReduce,HDFS 2. 并行计算框架:Spark vs. MapReduce 3. 在线查询:HBase与Impala 4. 流式计算:Flink vs. Spark Stream 5. 文本索引:Solr vs. ElasticSearch 6. Zookeeper与高可靠架构 7. Kafka分布式队列与日志收集 8. 数据挖掘工具:Mahout、SparkR与Spark ML |
第三单元 大数据核心组件 | Hadoop的工作原理 1. HDFS的工作原理 2. MapReduce的工作原理 3. MapReduce的优劣势分析 实战:编写WordCount程序 Spark的工作原理 1. Spark在Hadoop生态圈中的位置 2. Spark vs. MapReduce 3. Spark系统架构与RDD 1) RDD的运行原理 2) 转换/行动 命令 3) 名-值对RDD 案例:WordCount在Spark中的实现 Spark编程实战 1. 对RDD编程 1) 转换命令 2) 行动命令 2. 对名-值对RDD编程 1) 聚合/分组/连接/排序 2) 优化 3. 数据装载与保存 4. SparkSQL 案例:运用Spark实现用户资料的采集与展现 |
第四单元 数据中台之数据采集 | 大数据采集建设思路 1. 数据湖概念及其设计应用 2. 流批一体化建设思路 结构化数据采集 1. sqoop工作原理 2. 数据导入功能 1) 导入成HDFS、Hive、HBase 2) 增量导入 实战:数据导入的实战应用 3. 数据导出功能 1) 导出成HDFS、Hive、HBase 2) 增量导出 实操:数据导出的实战演练 非结构化数据采集 1. 批处理 vs. 实时分析 2. 实时分析系统应用实战 1) Flink及其原理 2) Kafka及其原理 3) Kafka+Flink的应用实战 实操:用户行为分析的实战演练 |
第五单元 数据中台之数据治理 | 大数据治理的建设思路 1. 数据治理面临的难题及其建设思路 2. 基于大数据的数据治理的建设过程 ETL过程 1. 数据标准化与数据质量管理 2. ETL过程:数据清洗、转换、集成 3. Hive工作原理 4. Hive命令:创建表、导入数据、查询数据、分区 5. Hive+SparkSQL的开发实战 6. 清洗、转换、集成、装载的应用案例 数据体系建设 1. 数据体系规划:原始数据层、数据仓库层、数据集市层 2. 数据资产管理:资产规划、数据治理、标签管理 3. 数据质量管理:元数据管理、数据血缘管理 4. 数据仓库建设:多维数据建模、事实表、维度表、聚合表 实操:基于大数据的数据治理实战演练 1. Hive数据库的建表、导数据、查询、分区操作 2. Hive数据库的分层:STAGE, ODS, MID, DM 3. Spark开发实战:数据清洗、转换、集成、导入数仓 |
第六单元 数据中台之数据服务 | 大数据服务的建设思路 1. 大数据分析挖掘及其应用 2. 海量数据秒级查询的建设思路 3. 大数据共享平台的建设思路 大数据查询 1. 离线分析、在线查询与近线分析 2. NoSQL数据库 1) 分布式架构CAP理论 2) BASE原则与弱一致性 3) NoSQL数据库的特点与优势 3. HBase的工作原理 1) HBase的概念模型 2) HBase的物理模型 3) HBase的列式存储 4) HBase的系统架构 5) HBase存储数据的特点 实操:HBase的开发实战 1. HBase数据库的设计 2. 批量数据高效导入 3. 数据查询与展现 数据索引 1. ElasticSearch的性能分析与特点 2. ElasticSearch的应用实战 1) 建立ElasticSearch的Hive映射表 2) 往ElasticSearch中写入数据 3) 用REST接口进行海量数据秒级查询 3. ElasticSearch应用开发应注意的问题 实操:ElasticSearch的实战演练 1. ElasticSearch的操作:建表、插入、查询 2. 批量数据高效导入 3. 数据查询与展现 大数据分析 1. 多维数据建模 2. Kylin的工作原理 3. Kylin的开发实战 1) Kylin的数据导入 2) 建立数据模型 3) 建立Cube 4) 使用jdbc进行数据查询 4. Kylin的性能优化 1) Kylin的数据膨胀率 2) 强制索引、层级索引与组合索引 3) Kylin的增量导入脚本 |
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员
Mac Fan
百林哲咨询(北京)有限公司专家团队成员