现就职于Teradata任大数据架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等企业,《Hadoop 应用开发技术详解》的作者,《海量数据基于记录级别的容错》专利,擅长 MR 开发,基于 MR 的算法开发。
简介
理解大数据和面临大数据带来的挑战,互联网网时代数据已经是公司的成败,对海量 数的存储、计算、分析和挖掘等目前是很多互联网公司的核心,例如广告的推荐、商品推荐等,还可 以挖掘数据来分析用户的潜在价值,面对数据快速的增长,存储和计算变得很重要,课程中我们使用 hadoop来解决海量数据所带来的一些问题,Hadoop目前已经备受互联网的亲耐,hadoop已经成为海 量数据处理必不可少的一个工具,也是最流行的一个海量数据存储和计算的框架,此外还有hive、Hbase、 sqoop等框架的培训。
目标
Hadoop这门课程从理论到实战再到公司的项目,还有hadoop集群的搭建和性能的调优,再到HDFS 性能的测试和MapReduce性能的测试再到网络的需求等全面的详解Hadoop的开发和维护,深刻理解 MapReduce的原理,能过使用mapreduce进行高级编程,使用Hive进行数据分析,使用Hbase进行线 上分析,关系型数据和HDFS、hive之间的相互迁移,理解Hadoop的使用场景,面对一个需求适不适 合使用hadoop。
课程时长
2天(12H)
受众人群
大数据爱好者、程序员、数据分析师,项目经理和对已经使用hadoop,想提高的用户。
学员学习本课程应具备下列基础知识:
1) 了解Java或者pyhon和shell语言;
2)了解Linux系统;
分享提纲
课程模块 | 课程主题 | 主要内容 | 案例和演示 |
模块一 | Hadoop的来源和动机 | 传统大规模系统存在的问题 ^ Hadoop 概述 ^ Hadoop分布式文件系统 ^ MapReduce工作原理 ^ Hadoop集群剖析 ^ Hadoop生态系统对一种新的解决方案的需求 ^ Hadoop的行业应用案例分析^ Hadoop在云计算和大数据的位置和关系 | 数据开放,数据云服务平台(DAAS)时代 今Hadoop平台在数据云平台(DAAS)上的天然优势 今数据云平台(DAAS平台)组成部分 今互联网公共数据大云(DAAS)案例 今Hadoop构建构建游戏云(Web Game Daas)平台 |
模块二 | Hadoop集群规划 | Hadoop集群内存要求 > Namenode的机器配置 > Datanode的机器配置 > SNN的机器配置 ^ Hadoop集群磁盘分区 ^ 集群和网络拓扑要求 ,集群软件的端口配置 | 今针对NameNode Jobtracker DataNode TaskTracker Hiveserver等不同组件需求推荐 服务器配置 |
模块三 | Hadoop简介和生态系统介绍 | ^传统大规模数据分析存在的问题 ^ Hadoop 概述 ^ Hadoop与分布式文件系统 ^ Hadoop生态系统 ^ Hadoop的行业应用案例分析 ^ Hadoop在云计算和大数据的位置和关系 ^ Hadoop版本介绍 ^ Hadoop 与 Google FS 的关系 ^ Hadoop在国内的使用情况和未来 | > Hadoop在推荐领域的使用案例介 绍 |
模块四 | Hadoop安装和主要配置文件介绍 | ^ Hadoop安装所需软件介绍 ^ Hadoop单机安装 ^ Hadoop伪分布式安装 ^ Hadoop完全分布式安装 ,Hadoop三个节点安装的配置介绍 ^ Hahoop多节点ssh配置 ^ Hadoop格式化详解 ^ Hadoop核心配置文件介绍 ^ 核心配置文件core-site.xml ^ HDFS 配置文件 hdfs-site.xml ^ Mapreduce 配置文件 mapred-site.xml ^ master文件配置详解 ^ slave文件配置详解 ,Hadoop启动和停止方法 一 —start-all.sh 详解 —stop-all.sh 详解 ,Hadoop的启动和停止方法二 —hadoop-deamon.sh 详解Hadoop安装的常见错误介绍和解决方案 ^ 使用自带的wordcount和pi测试集群安装是否成功 ^ 使用Streaming来测试集群安装是否成 功 | > Hadoop单机演示 > Hadoop伪分布式演示 > Hadoop完全分布式演示 > Hadoop两种启动方式的演示 > Hadoop安装常见错误的介绍和演 示 > Hadoop 自带的 wordcount 和 pi 演示 > Hadoop Streaming 的案例演示 |
模块五 | Hadoop组件介绍 | ^ Hadoop NameNode 介绍 Z Hadoop SecondaryNameNode介绍 |