简介
SRE于谷歌内部产品技术保障过程中演进而来的运维新模型,并且定义了新岗位的职责范围。区别于传统运维模式,SRE强调自动化系统,主张通过软件工程方式开发出一些场景化的自动化运维工具来替代重复和手工操作。通过本次课程,将对SRE的构建和自动化运维有更深的理解及场景应用案例的认识。
目标
深层次的了解SRE的构建和自动化运维
受众人群
架构师、运维工程师、技术经理、开发工程师
课程时长
2天(12H)
分享提纲
一、微服务架构下的运维体系建设 | 1、应用为核心的运维管理思路 * 应用起源 * 应用模型及其关系模型的建立 * 为什么要以应用为核心 2、标准化体系建设 * 运维对象标准化及对象建模 * 分布式架构标准化实践 3、应用生命周期管理 * 生命周期管理的重要性 * 如何从生命周期的视角去分析运维对象和场景 |
二、应用管理的落地实践-CMDB建设 | 1、CMDB在不同阶段的理解和定位 2、CMDB和应用配置管理 3、应用、集群等概念在CMDB中的落地实践 |
三、持续最佳交付实践 | 1、持续交付全流程介绍 2、持续交付-需求管理 * 项目管理与需求分解 * 发布协调 3、持续交付-开发模式选择 * 主干模式 * Gitflow模式 * 分支模式 4、持续交付-多环境管理 * 集成测试环境 * 项目环境 * 预发环境 * Beta环境 * 生产环境 5、持续交付-配置管理 * 多配置文件模式 * 占位符模式 * AutoConfig模式 6、持续交付-功能性及非功能性质量保障 * 单元和接口测试 * 非功能性能验证 7、持续交付-发布/部署模式 * 蓝绿部署 * 金丝雀(灰度)发布 * 滚动发布 |
四、稳定性体系建设 | 1、极端业务场景下的稳定性保障 * 容量规划 * 限流降级 * 开关预案 * 全链路跟踪 2、极端场景下的不确定因素 |
五、有效的故障管理模式 | 1、探讨:如何面对、理解和认识故障?除了故障是否要处罚? 2、故障的定级定责 * 关键角色岗位:技术支持 * 定级标准 * 定责标准 * 鼓励做事,而不是惩罚错误 * 小心罚的负作用 3、故障应急和复盘 * 应急机制和组织 * 复盘机制 * 定期的案例汇总和总结 |
六、运维组织架构建设 | 1、国内外运维组织架构建设分享 * Google SRE模式 * Netflix Core SRE模式 * 阿里技术保障模式 * 腾讯技术运营模式 2、运维发展趋势和转型探讨 * DevOps * AIOps * SRE * 技术运营 |