具有超过10年的后端开发经验和3年前端开发经验,具有丰富的开发框架设计与自动化运维经验。开发设计多个千万级项目经验,并拥有高并发、微服务等实战经验。
简介
本课程围绕“数据治理实践进阶”这一主题,系统性地梳理了大数据工程师必备的知识体系和技术技能,主要讲解数据治理产品设计与最佳实践、微服务架构设计最佳实践、DevOps最佳实践、ETL使用进阶、元数据治理框架进阶等。课程目标是帮助数据治理人员站在行业顶级公司的产品基础之上,迅速提升技术视野,在技术实力和工程实践两方面双管齐下,加速提升企业的全局数据治理能力,并帮助企业培养数据治理技术骨干。
目标
深入理解并掌握数据治理相关理念以及架构设计
深入理解并掌握ETL工具使用
深入理解并掌握元数据治理框架Apache Atlas的使用
深入理解数据可视化展现方式以及应用
理解并掌握数据治理相关产品定位以及相互协作关系
掌握数据治理产品相关架构设计
课程时长
2天(12H)
受众人群
大数据工程师,DBA和开发技术骨干成员、开发技术负责人,研发经理和研发总监、研发架构师、DevOps资深工程师和技术负责人、技术创新团队的工程师。
分享提纲
模块 | 概要 | 内容 |
模块1:数据治理理念进阶 | 系统性梳理了软件工程师必须掌握的数据治理的核心知识技能点,串讲各个每个维度概念,深入讲述数据治理念,从主数据、元数据、数据中台以及数据治理各个指标对数据治理进行宏观深度深度剖析,讲述各个系统的相互协作治理 | · 什么是数据治理? · 为什么要数据治理 · 数据治理中间件和框架 · 数据治理框架解读 · 主数据 · 元数据 · 数据标准体系 · 数据质量 · 评价考核体系 |
模块2:ETL工具使用技巧 | ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。本模块将介绍该模块的常用使用技巧 | · 选择合适的ETL工具 · ETL工具初探 · ETL库表操作案例详解 · ETL对非关系型数据操作 · ETL插件初探 · 数据清洗 · ETL设计 · ETL定时 · ETL数据迁移 · ETL扩展 |
模块3:元数据治理Apache Atlas | Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力,本模块将讲解该框架的实践使用 | · 元数据治理必要性 · 元数据在数据治理中角色 · 元数据治理框架介绍 · Atlas简介 · Atlas安装部署 · 元数据血缘分析 · 数据地图 · 智能匹配 · 元数据抽取 · 相关度分析 · 影响分析 · 数据模型 · 数据监控 |
模块4:数据可视化 | 数据可视化分析并展示庞杂数据的产品。旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。本模块将从数据治理的展示层介绍数据之“魅力”。 | · 数据可视化必要性 · 数据可视化角色定位 · 可视化相关组件/框架 · BI工具简介 · 事实表维表 · 数据建模 · 领导驾驶舱 |
模块5:数据服务总线建设 | 数据总线(DataBus)。规范了一个大的集成应用系统中同构系统、异构系统等方面进行数据共享和交换实现方法,系统间数据交换标准。结合数据产品梳理数据流向 | · 数据共享模式 · 数据安全机制 · 数据连接/权限 · 审批流程 · 数据监控、管控 · 消息机制 |
模块6:数据治理产品协作 | 这里谈论目前数据治理产品相互协作,整体管控数据流向和质量,对当下业务场景产出的插件产品介绍,了解数据治理的整个产品脉络 | · 数据治理相关产品介绍 · 数据治理仓库、中台等设计 · 产品分层、角色划分、产品协作 · 人员分配 |
模块7:数据治理架构设计 | 数据治理架构设计必须设计合理,才能不至拖垮整个系统。这里的内容会与当下主流行的DevOps、微服务等技术结合,讲解治理设计方案 | · 微服务架构下的数据治理 · 架构设计细化设计 · 架构分层/模式 · 架构设计优劣势 · 云部署 · DevOps引入 |