深度剖析 Hadoop&HDFS&MapReduce&Hive&Spark&Impala--企业级大数据最佳实践

Andrew Yin 查看讲师

百林哲咨询（北京）有限公司专家团队成员

资深大数据专家多年从事大数据、云计算研发工作经验，数学博士，IT从业近二十年，擅长OpenStack、Hadoop、HDFS、HBase、Hive、MapReduce、Zookeeper、等大数据技术和开源框架，曾主导过多个私有云建设项目。

浏览：5410次

详情 DETAILS

目标

1、彻底理解 Hadoop 为代表的大数据实现技术；

2、具备开发网盘的能力；

3、具备修改 HDFS 源码实力；

4、从代码的角度剖析 MapReduce 执行的具体过程并具备开发 MapReduce 代码的能力；

5、具备掌握 MapReduce 内部运行和实现细节并改造 MapReduce 的能力；

6、具备 Pig 企业级大数据管理的能力；

7、具备 Hive 企业级大数据分析的能力；

8、具备 Oozie 的数据分析与编程能力；

9、具备 Impala 的数据分析与开发能力；

10、具备 Spark 的基于内存计算的开发能力；

课程时长

4天（24H）

受众人群

1、对大数据、分布式存储、分析等感兴趣的朋友；

2、 Java、PHP、C 等任意一门编程语言的开发者；

3、大型网站、电商网站等运维人员；

4、云计算、大数据从业者；

5、熟悉 Hadoop 生态体系，想了解和学习 Hadoop 与 Spark 整合在企业应用实战案例的朋友；

6、系统架构师、系统分析师、高级程序员、资深开发人员；

7、牵涉到大数据处理的数据中心运行、规划、设计负责人；

8、政府机关，金融保险、移动互联网等大数据单位的负责人；

9、高校、科研院所大数据研究人员，涉及到大数据与分布式数据处理的人员；

10、数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据

仓库感兴趣的其他人员；

培训方式

以课堂讲解、演示、案例分析为主，辅以互动研讨、现场答疑、学以致用。

分享提纲

主题	内容
大数据Hadoop基础知识介绍（深入理解大数据的产业链体系）	1、大数据生态体系介绍 2、大数据支撑：云计算 3、大数据核心：海量数据 4、大数据灵魂：大数据技术 5、大数据价值：大数据商业思维 6、银行业大数据企业应用障碍分析
Hadoop大数据生态体系（彻底深入理解Hadoop生态体系）	1、Hadoop是大数据架构的事实标准 2、Hadoop工作原理及架构 3、Hadoop生态体系介绍 4、Hadoop应用现状 5、Hadoop发展趋势 6、Hadoop优势 7、实例分析：双十一背后的开源技术
Hadoop分布式集群部署与运维（动手搭建Hadoop集群及运维）	1、SaltStack 2、Maven 3、禁用IPV6 4、SSH无密码登录 5、Hadoop HA部署介绍 6、Hadoop集群部署 7、Hadoop集群的监控 8、Hadoop集群的运维
HDFS大数据分布式文件系统（深入理解大数据分布式文件系统的原理与机制）	1、HDFS架构剖析 2、NameNode、DataNode、SecondaryNameNode介绍 3、NodeName高可靠性最佳实践 4、DataNode中Block划分的原理和具体存储方式 5、修改NameNode、DataNode数据存储位置 6、CLI操作HDFS 7、Java操作HDFS 8、RESTful操作HDFS 9、动态修改Hadoop的Repliccation数目 10、Hadoop序列化 11、Hadoop流压缩 12、Hadoop RPC 13、SequenceFile与MapFile 14、Hadoop AVro
MapReduce大数据批处理技术（深入理解MapReduce原理及培训开发MapReduce程序能力）	1、MapReduce算法剖析 2、MapReduce编程思想 3、MapReduce常用算法 4、MapReduce命令操作 5、wordcount运行过程解析 6、Hadoop如何将HDFS文件转化为Key-Value供Map解析与处理 7、Hadoop的调度器介绍 8、Combiner的使用原则 9、Partitioner的使用最佳实践 10、MapReduce排序算法剖析