课程简介
Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库,分布式机器学习的训练数据和数据处理也经常用它来处理,Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能, Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。本课程从
hive架构、基本原理和开发技能、基于hive的数据仓库企业应用案例、Hive与HBase、Spark SQL的整合三部分出发,结合个人实际经历出发,介绍了数据仓库的分层模型(基于 hive)和相关技术选型,以及设计和开发中的一些注意点。
课程收益
为企业培训优秀的大数据开发人才,使每一位接受培训的学员都能学习到数据仓库的深厚理论和技能,掌握大数据、特别是hive的基本原理和内在机制以及面向企业应用的开发实战经验。
受众人群
数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIO和CTO
课程周期
1天(6小时)
课程大纲
主题 | 授课内容 |
一、hive应用的大数据背景 | 1. 大数据现状 2. 大数据技术方向 3. 大数据职业规划 4. hive数据仓库平台 5. hive应用案例 |
二、hive架构 | 1. Hive部署与访问,3种元数据服务、3种访问接口 2. Hive数据模型 3. Hive数据存储结构 4. Hive架构 |
三、Hive原理与优化 | 1. Hive实现原理 2. Distinct 3. multi insert和union all 4. Join 5. Group by & order by 6. 合理设置map与reduce数 7. 提升Job并发 8. 数据倾斜的原因和症状、解决方案 |
四、Hive高级特性 | 1. UDF、UDAF、UDTF&Explode 2. 压缩 3. Python访问 4. 窗口分析函数 |
五、技术应用 | 1. 数据仓库企业开发平台 2. 数据仓库模型设计 3. 自助查询 |
六、与Hbase、spark整合
| 1. 与Hbase整合与适用场景 2. 与Spark整合与适用场景 |
七、商业应用案例
| 1. 宽表设计与用户画像 2. 网站流量分析与页面运营 |