百林哲课程

一线技术专家团队——提供关键岗位人才培养体系设计与开发等一系列研发管理培训咨询课程。用产品化、场景化、国际化的视角,分享卓越研发管理实践。具有以下鲜明特点:

1、课程研发专业迅速
2、国内顶尖一线技术专家
3、极致用户服务体验

全部课程

最新公开课

微服务架构设计与实践(二)

2019.01.12 - 2019.01.13 深圳.

课程日历

百林哲专家

携手全球知名一线技术专家团队分享软件研发技术管理实践,国内一线、一手研发管理实践,行业智库。

成为专家
用户登录
您当前的位置:首页>全部课程>大数据架构与技术培训实践

大数据架构与技术培训实践

浏览:92次

课程周期

3天

课程大纲:

课程模块

课程主题

主要内容

案例和演示

第一天

开源大数据常用生态组件和华为FI介绍

大数据的整体技术架构

Ø 开源大数据技术架构

Ø 分布式存储—HDFS

Ø 离线计算框架介绍

—Mapreduce、Hive、Tez、Presto、Kylin

Ø 数据采集工具介绍

—Sqoop和Flume

Ø 实时查询框架介绍

—NoSQL、Hbase

Ø 实时计算框架介绍

—Kafka、Strom、Spark Streaming

Ø 内存计算框架介绍

—Spark、SparkSQL、SparkMllib、SparkR

Ø 前沿大数据技术介绍

—Flink、Drill、Druid、KUDU等

Ø 海量日志快速检索架构

—ELK(Elasticsearch、Logstash、Kibana)等

Ø 华为大数据平台的介绍

Ø 华为大数据平台与开源大数据平台的区别


第一天

 

 

数据分析技术介绍和比较(SQL on Hadoop)

Ø M-OLAP分析应用场景介绍 

Ø Kylin实现M-OALP介绍

Ø R-OLAP应用分析场景介绍

Ø SparkSQL应用场景介绍

Ø Impala应用场景介绍

Ø Presto应用场景介绍

Ø sparkSQL、Impala和Presto之间的比较

Ø Elasticsearch应用场景介绍

Ø ELK应用案例介绍和分享

Ø Elk技术介绍

Ø Elk的应用场景介绍

Ø Elk与Impala的比较


第一天

数据仓库设计架构

 

Ø 数据仓库典型架构介绍

—ODS层

—DW层

—DM层

Ø 数据安全控制

Ø ETL任务调度

Ø 元数据管理


第一天

 数据湖设计架构

Ø 数据湖概念介绍

Ø 数据湖分区介绍

—着落区

—处理区

—表达去

—探索区

Ø 数据湖实现的技术介绍

Ø 数据湖与数据仓库之间的关系


第一天

 

 

 

 

企业级大数据平台的数据架构

Ø 数据接入大数据平台

—离线数据接入

—实时的数据接入

Ø 数据处理过程

—数据的ETL

—数据分层(ODS、DW和DM等)

—数据建模

—数据校验

Ø 数据应用

—数据离线应用

—数据实时应用 

—数据实验室

Ø 大数据平台与MPP的应用定位

Ø 大数据平台与MPP之间的数据应用


第二天

 

 

 

 

分布式存储HDFS

Ø HDFS架构介绍

Ø HDFS原理介绍

Ø NameNode功能详解

Ø DataNode功能详

Ø HDFS HA功能详解

Ø HSFD的fsimage和editslog详解

Ø HDFS的block详解

Ø HDFS的block的备份策略

Ø Hadoop的机架感知配置

Ø HDFS的权限详解


第二天

 

 

 

分布式计算MapReduce

Ø Mapreduce原理

Ø MapReduce流程

Ø 剖析一个MapReduce程序

Ø Mapper和Reducer抽象类详解

Ø Combiner详解

Ø Partitioner详解 

Ø 任务调度

Ø 默认的任务调度

Ø 公平任务调度

Ø 能力任务调度


第二天

 

 

分布式资源管理Yarn

Ø Yarn的原理和架构

Ø Yarn资源调度策略

Ø CPU、内存和IO三种资源调度优化

Ø Yarn资源调度Fair和Capacity详解

Ø Yarn动态资源的设置

Ø 动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等)

Ø 基于Yarn的资源控制详解


第二天

HIVE数据仓库集群的多维分析建模应用实践

Ø 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例

Ø Hive数据仓库集群的平台体系结构、核心技术剖析

Ø Hive Server的工作原理、机制与应用

Ø Hive数据仓库集群的安装部署与配置优化

Ø Hive应用开发技巧

Ø Hive SQL剖析与应用实践

Ø Hive数据仓库表与表分区、表操作、数据导入导出

Ø Hive数据仓库报表设计

Ø Hive数据仓库表的文件格式介绍

基于Hive的数据分层实现 (ODSDWDWS/BDMST)


第三天

 

 

 

 

 

NoSQL和Hbase使用

Ø NoSQL介绍

Ø NoSQL应用场景

Ø Hbase的架构原理

Ø Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)

Ø Hbase自带的namesapce和Meta表详解

Ø HBase逻辑视图介绍

Ø HBase物理视图介绍

Ø HBase的RowKey设计原则

Ø HBase BloomFilter的介绍

Ø Hbase表的设计案例

Ø 手动设置Split和Compaction操作

Ø Pre-Split的介绍

Ø HBase Region的迁移优化

Ø HBase 的表结构优化

Ø HBase使用场景介绍

Ø HBase案例分析


第三天

 

 

 Spark编程模型和解析

Ø Spark的编程模型

Ø Spark编程模型解析

Ø Partition实现机制

Ø RDD的特点、操作、依赖关系

Ø Transformation RDD详解

Ø Action RDD详解

Ø Spark的累加器详解

Ø Spark的广播变量详解

Ø Spark容错机制

— lineage和checkpoint详解

Ø Spark的运行方式

Ø Spark的Shuffle原理详解

— Sort-Based原理

— Hash-Based原理

Spark2.0的新特性


第三天

 

 

 Spark SQL原理和实践

Ø Spark SQL原理

Ø Spark SQL的Catalyst优化器

Ø Spark SQL内核

Ø Spark SQL和Hive连接

Ø DataFrame和DataSet架构

Ø Fataframe、DataSet和Spark SQL的比较

Ø SparkSQL parquet格式实战

Ø Spark SQL的实例和编程

Ø Spark SQL的实例操作demo

Ø Spark SQL的编程


第三天

 

Spark Streaming详解

Ø Spark Streaming原理

Ø Spark Streaming的应用场景

Ø Windows 窗口操作

Ø DStream详解

Ø Spark SQL on Spark Streaming详解

Ø Structured Streaming介绍


第三天

 

 Spark 数据挖掘基于

Ø SparkMllib功能介绍

Ø 基于Spark Mllib数据挖掘的流程

Ø 基于Spark Mllib实现回归应用

Ø Graphx架构个原理

Ø Graphx图的构建要素

Ø Graphx图操作介绍


第三天

案例实战

Ø 某大型商业银行企业级大数据平台案例分享

Ø 问答



Gavin

百林哲咨询(北京)有限公司专家团队成员

Gavin—— 百林哲咨询(北京)有限公司专家团队成员,现就职于Teradata任大数据架构师 先后服务于北京大学软件研究所、高德软件、阿里巴巴等企业,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建

如您想参加此课程,您可以点击“我想参加”按钮提交您的需求,我们会及时与您联系
我要参加
将课程带入到您的团队,为您的团队进行一对一辅导。
预约内训

相关课程

大数据

大数据架构与技术培训实践

浏览:92 收藏:0
大数据

Python、Spark和TensorFlow人工智能

本课程围绕Python、Spark和TensorFlow人工智能进行深度分享。

浏览:832 收藏:0
大数据

Hadoop开发、运维和调优实战

课程中我们使用 hadoop来解决海量数据所带来的一些问题,Hadoop目前已经备受互联网的亲耐,hadoop已经成为海 量数据处理必不可少的一个工具,也是最流行的一个海量数据存储和计算的框架,此外还有hive、Hbase、 sqoop等框架的培训。

浏览:1106 收藏:0
大数据

ELK最佳实战

ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载。

浏览:2778 收藏:2

推荐课程

Nodejs全栈
Nodejs作为一个新兴的后台语言,有很多吸引人的地方,比如RESTful API、单线程,非阻塞IO、V8虚拟机、事件驱动等,从2009年发展至今,虽然让Javascript运行于服务器端不是Node的独特之处,但却是其一强大功能。浏览器环境限制了选择编程语言的自由。任何服务器与日益复杂的浏览器客户端应用程序间共享代码的愿望只能通过Javascript来实现。虽然还存在其他一些支持Javascript在服务器端运行的平台,但因为上述特性,Node发展迅猛,
深入理解Storm与大数据实战课程
在大数据的批处理领域,Hadoop是不可撼动的王者,然而在实时性上的延迟,Hadoop却是其天生的不足,为完善大数据实时性处理的需求,业界进行了不少的尝试,如Facebook在2011年发表的论文“Apache Hadoop Goes Realtime at Facebook”中介绍了其基于Hadoop上进行实时性系统的相关改进,同时开发了Puma对网站用户进行实时分析以便对自己的产品或服务进行营销,为解决广告计费(cost-per-click)Yahoo启动了S4用于实时计算、预测用户
大数据的商业变现解析
本课程会结合大数据的原理与本质,从目前商业变现的典型场景:广告类、电商、搜索等场景入手,深度剖析数据变现背后的逻辑及思考。无论是什么时代,数据建模和挖掘的核心都是决策支持,而大数据给企业带来的是更精准