课程简介
在数字化浪潮席卷全球的当下,数据已成为驱动社会发展和企业决策的核心要素,大数据技术与应用的重要性日益凸显。从海量数据的采集、存储,到高效处理、深度分析,再到基于数据洞察的精准决策,大数据技术贯穿于各个行业与领域,为企业挖掘潜在价值、提升竞争力提供了强大支撑。然而,大数据领域技术生态复杂多样,涵盖Hadoop、Spark、Flink等众多技术框架,涉及分布式存储、数据库管理、高效数据处理工具等多个层面,同时对相关岗位人员的技能要求也愈发综合与专业。面对如此庞大且不断演进的技术体系,学习者往往感到无从下手,企业也急需具备扎实大数据技术功底与实战能力的人才。
本课程围绕大数据技术与应用展开,涵盖大数据生态圈概览、数据库与存储技术、高效数据处理工具与方法、数据管理与分布式计算等多个方面。通过理论讲解与实战演练相结合的方式,使学员深入理解大数据技术的核心原理,掌握大数据处理与分析的实战技能,为企业在大数据时代下的数字化转型提供有力支持。
课程收益
1、帮助学员掌握大数据技术生态圈的核心组件与原理,提升技术视野与实战能力。
2、帮助学员学会高效处理与分析大数据,为企业决策提供数据支持。
3、帮助学员理解数据管理与分布式计算的前沿技术,助力企业数字化转型。
受众人群
大数据工程师、数据分析师、数据库管理员、数据科学家、ETL工程师
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、大数据技术与数据科学概览 | 1. 大数据技术与生态圈概述 (1) 大数据定义与特点 (2) 大数据技术发展历程 (3) 大数据技术生态圈 (4) Hadoop技术生态 ① Hadoop概述 ② HDFS ③ MapReduce ④ Hadoop生态系统组件 (5) Spark技术生态 ① Spark概述 ② RDD ③ Spark SQL ④ Spark Streaming ⑤ MLlib ⑥ GraphX (6) Flink技术生态 ① Flink概述 ② DataStream API ③ DataSet API ④ Flink Table API & SQL ⑤ Flink容错机制 (7) 大数据存储技术生态 ① 分布式数据库 ② 分布式文件系统 ③ 数据仓库 ④ 数据湖 ⑤ 分布式对象存储 ⑥ NoSQL数据库 (8) 大数据处理技术生态 ① 批处理 ② 流处理 ③ 图计算 ④ 机器学习 (9) 大数据分析技术生态 ① Hive离线分析框架 ② Impala MPP 分析框架 ③ Kylin 预处理OLAP分析框架 ④ StarRocks 实时OLAP分析框架 ⑤ CK实时OLAP分析框架 ⑥ Doris实时OLAP分析框架 (10) 大数据任务调度技术框架 (11) 大数据可视化技术生态 (12) 大数据技术生态圈拓展 2. 大数据相关岗位技能 (1) 大数据相关岗位技能要求 3. 大数据学习路线图 4. 大数据趋势与发展 5. 数据科学概览 (1) 产生背景 (2) 数据科学的概念 (3) 数据科学的流程 ① 理解业务问题 ② 数据收集 ③ 数据清洗 ④ 数据准备 ⑤ 模型构建 ⑥ 模型评估 ⑦ 模型部署 ⑧ 结果可视化 (4) 数据科学的方法 ① 探索性数据分析(EDA) ② 统计推断 ③ 机器学习算法 ④ 深度学习算法 ⑤ 自然语言处理(NLP)算法 ⑥ 图像处理和计算机视觉算法 ⑦ 时间序列分析 ⑧ 集成学习分析 ⑨ 推荐系统算法 |
二、数据库与存储 计算技术基础 | 1. 数据库基础 (1) 数据模型基础 ① 实体-关系模型 ② 数据模式 (2) SQL基础 ① 数据定义 ② 数据操纵 ③ 数据查询 ④ 数据控制语言 (3) 数据库设计原则和正规化 ① 第一范式1NF(First Normal Form) ② 第二范式2NF(Second Normal Form) ③ 第三范式3NF(Third Normal Form) (4) 数据库事务管理和并发控制 ① 数据库事务管理和并发控制 ② 事务的特性 ③ 事务管理 ④ 事务的并发控制 ⑤ 并发控制技术 ⑥ 封锁 ⑦ 封锁协议 ⑧ 活锁和死锁 2. 关系数据库技术 (1) RDBMS内部工作原理 (2) 关系数据库设计和优化 (3) 高级SQL技巧:索引、触发器、存储过程 ① MySQL索引简介 ② B Tree与B+ Tree特点与优势 ③ MySQL索引分类 ④ MySQL索引应用场景 ⑤ MySQL性能分析 ⑥ 使用MySQL索引进行查询优化 ⑦ 触发器简介 ⑧ 存储过程简介 ⑨ 触发器与存储过程的最佳实践 3. 扩展数据库技术 (1) NoSQL数据库概览-Redis键值存储 ① Redis简介 ② 优势和特性 ③ Redis常用架构模式 ④ Redis回收淘汰策略 ⑤ Redis过期键删除策略 (2) NoSQL数据库概览- MongoDB文档存储 ① MongoDB简介 ② MongoDB数据存储方式 ③ MongoDB的功能特点 ④ MongoDB的应用场景 (3) NoSQL数据库概览-Neo4J图数据库 ① Neo4J简介 ② Neo4J的特点和优势 ③ Neo4J的应用场景 (4) 其他现代数据库技术 ① 云数据库 ② 数据库自动化 |
三、高效数据处理工具和方法 | 1. Doris数据库专题研究 (1) Doris的架构理解 (2) Doris的优势和特点 (3) Doris的核心功能 (4) Doris高效数据查询 (5) Doris集群管理-Doris Manger (6) Doris在大数据环境中的应用案例 2. MPP数据仓库 (1) MPP架构的基本概念 (2) MPP与传统数据库技术的比较 (3) MPP数据仓库的最佳实践和性能优化 ① 数据模型选择 ② 大宽表与 Star Schema ③ 分区和分桶 ④ 稀疏索引和 Bloom Filter ⑤ 建Rollup ⑥ Join 优化 ⑦ 谓词下推 ⑧ 运行时过滤 ⑨ 字典优化 ⑩ Doris数仓最佳实践 3. ETL流程与实现 (1) ETL的基本流程 ① 提取 ② 转换 ③ 加载 (2) ETL工具和技术 (3) ETL在数据迁移中的实际应用 ① 配置数据库(源和目标) ② 创建数据转化任务、创建“表输入”步骤,选择数据来源 ③ 创建“表输出“步骤,选择数据流向 ④ 执行数据迁移转化(这个转换可以包含在一个作业中) |
四、数据管理与分布式计算 | 1. 分布式计算技术 (1) MapReduce (2) Spark (3) Flink 2. 分布式存储概述与框架 3. 分布式存储技术 (1) 分布式文件系统 (2) 分布式对象存储 (3) 分布式数据库 (4) 分布式块存储 (5) 分布式文件共享 (6) 分布式缓存存储 4. 对象存储服务(OSS)与应用案例 (1) OSS服务简介 (2) OSS的相关概念 (3) OSS的功能特性 (4) OSS对象存储的优势 (5) OSS的应用场景 (6) 对象存储服务OSS应用案例:图片上传 5. 文件存储介绍与应用案例 (1) Fast DFS文件存储简介 (2) Fast DFS安装部署 (3) FastDFS文件系统应用案例:文件上传、下载 |
五、大数据基础培训总结与期望 | 1. 内容回顾 2. QA |
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
Max Yang
百林哲咨询(北京)有限公司专家团队成员
京ICP备2022035414号-1