您当前的位置:首页>课程>基于大数据平台数据建模和数据仓库设计

基于大数据平台数据建模和数据仓库设计

浏览:88
分享

Gavin Read more

百林哲咨询(北京)有限公司专家团队成员

现就职于Teradata任大数据架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等企业,《Hadoop 应用开发技术详解》的作者,《海量数据基于记录级别的容错》专利,擅长 MR 开发,基于 MR 的算法开发。

简介

随着大数据技术的使用越来越广泛,企业面临数据整合、数据分层、数据管理、数据使用、 数据湖等问题尤为的重要。使得基于大数据平台的数据仓库和数据湖建设非常的必要。本次 大数据数据仓库的培训理论和实践相结合,通过一些企业级的真实案例实现基于大数据平台 数仓、数据湖的建设。 本次课程包含 3NF 模型和维度模型的使用经验分享,金融行业的 10 大主题域模型等。 

目标

1. 数据仓库和数据湖的概念和架构 

2. 数据建模的技术、流程和注意点 

3. 数据整合、处理和展示的流程 

4. 基于大数据平台实现数据仓库、数据湖的技术和案例分享 

5. 电信和银行等传统行业大数据平台数据仓库、数据湖的落地案例和经验分享 

6. 关系模型和维度模型的应用场景 

课程时长

2天(12H)

分享对象

数据架构师、数据分析和挖掘人员、模型师、大数据架构师、ETL 开发工程师、业务人员 

学员基础

对大数据技术了解、对业务了解

分享提纲

主题

授课内容

第一章:数据分析技术介绍和比较 (SQL on Hadoop)

 

M-OLAP 分析应用场景介绍

1. Kylin 实现 M-OALP 介绍

2. R-OLAP 应用分析场景介绍

3. SparkSQL 应用场景介绍

4. Impala 应用场景介绍

5. Presto 应用场景介绍

6. sparkSQLImpala Presto 之间的比较

7. Elasticsearch 应用场景介绍

8. ELK 应用案例介绍和分享

第二章:数据建模方法介绍(范式模型)

1. 关系建模概念

2. 为什么要关系数据建模

3. 关系建模的方法介绍

4. 概念模型

5. 逻辑模型

6. 物理模型

7. Teradata 金融十大模型主题域介绍

8. 关系建模的应用场景

第三章:数据建模方法介绍(维度模型)

1. 维度建模概念

2. 为什么要维度建模

3. 维度表介绍

4. 维度种类

5. 缓慢变化维处理

6. 快速变化维处理

7. 代理键

8. 维度的三种模型介绍:星型模型、雪花模型、多维模型

9. 事实表的类型

10. 基于维度模型数据仓库的基本概念

11. 维度模型建设步骤

第四章:范式建模和维度建模的比

1. 企业级数据仓库范式建模和维度建模的引用场

2. 范式建模解决的问题领域

3. 维度建模解决的问题领域

4. 关系建模和维度建模的比较

第五章:数据仓库设计架构

1. 数据仓库典型架构介绍:、ODS 层、DW 层、DM

2. 数据安全控制

3. ETL 任务调度

4. 元数据管理

第六章:数据湖设计架构

1. 数据湖概念介绍

2. 数据湖分区介绍:着落区、处理区、表达去、探索区

3. 数据湖实现的技术介绍

4. 数据湖与数据仓库之间的关系

第七章:大数据平台的数据架构

1.数据接入大数据平台

离线数据接入

实时的数据接入

2.数据处理过程

数据的 ETL

数据分层(ODSDW DM )

数据建模

数据校验

3.数据应用

数据离线应用

数据实时应用

数据实验室

数据展示工具(BI 工具)

第八章:HIVE 数据仓库集群的多维

分析建模应用实践

1. 基于 Hadoop 的大型分布式数据仓库在行业中的数据仓库应用案例

2. Hive 数据仓库集群的平台体系结构、核心技术剖析

3. Hive Server 的工作原理、机制与应用

4. Hive 数据仓库集群的安装部署与配置优化

5. Hive 应用开发技巧

6. Hive SQL 剖析与应用实践

7. Hive 数据仓库表与表分区、表操作、数据导入导出

8. Hive 数据仓库报表设计

9. Hive 数据仓库表的文件格式介绍

10. 基于 Hive 的数据分层实现 (ODSDWDWS/BDMST)

11. 公共纬度的设计

12. 杂项纬度的设计

13. 纬度退化的设计

14. 周期快照的设计

15. 拉链表的设计

第九章:数据抽取、采集和整合

1. RDBMS 导入导出到 hadoop 数据仓库

2. Sqoop 工具介绍和使用

3. DataX 工具介绍

4. CDC 工具介绍(Oracle OGG Mysql Binlog)

5. Hadoop 数据导出到 RDBMS 介绍和注意点

6. 实时非结构化数据的采集

7. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库

8. 基于 Hadoop 数据仓库的数据分层(ODSDWDWS/BDMST)

9. 数据仓库不同层之间的数据交互和 ETL

第十章:维度模型实时案例分享

1. 维度模型设计步骤

2. 业务主体划分

3. 维度的一致性与一致性维度

4. 客户维度模型

5. 合约维度模型

6. 账户维度模型

7. 机构维度模型

第十一章:基于大数据平台数据仓库案例分析

1. 互联网基于大数据的数据仓库建设介绍

2. 金融基于大数据平台建设数据仓库案例分享


我要参加

可同时提交您的需求,我们会及时与您联系

预约内训

将课程带入到您的团队,为您的团队进行一对一辅导。

相关课程