基于hive构建数据仓库技能培训
Pierson Song 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大型工业集团大数据技术专家,15年资深的大数据技术管理工作经验,擅长数据仓库和数据挖掘 、深度学习研发经验。
浏览:1023次
详情 DETAILS

课程简介

Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库,分布式机器学习的训练数据和数据处理也经常用它来处理,Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能, Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。本课程从

hive架构、基本原理和开发技能、基于hive的数据仓库企业应用案例、Hive与HBase、Spark SQL的整合三部分出发,结合个人实际经历出发,介绍了数据仓库的分层模型(基于 hive)和相关技术选型,以及设计和开发中的一些注意点。

课程收益

为企业培训优秀的大数据开发人才,使每一位接受培训的学员都能学习到数据仓库的深厚理论和技能,掌握大数据、特别是hive的基本原理和内在机制以及面向企业应用的开发实战经验。

受众人群

数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIOCTO

课程周期

1天(6小时)

课程大纲

主题

授课内容

一、hive应用的大数据背景

1. 大数据现状

2. 大数据技术方向

3. 大数据职业规划

4. hive数据仓库平台

5. hive应用案例

二、hive架构

1. Hive部署与访问,3种元数据服务、3种访问接口

2. Hive数据模型

3. Hive数据存储结构

4. Hive架构

三、Hive原理与优化

1. Hive实现原理

2. Distinct

3. multi insert和union all

4. Join

5. Group by & order by

6. 合理设置map与reduce数

7. 提升Job并发

8. 数据倾斜的原因和症状、解决方案

四、Hive高级特性

1. UDF、UDAF、UDTF&Explode

2. 压缩

3. Python访问

4. 窗口分析函数

五、技术应用

1. 数据仓库企业开发平台

2. 数据仓库模型设计

3. 自助查询

六、与Hbase、spark整合

 

1. 与Hbase整合与适用场景

2. 与Spark整合与适用场景

七、商业应用案例

 

1. 宽表设计与用户画像

2. 网站流量分析与页面运营


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1