课程简介
Google最早在2003年就提出了SRE这个概念,历经了近20年的发展, SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性(Reliability)展开的。“质量、成本、效率、安全”是运维不可或缺的4个要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。
本课程清晰完整地讲解SRE(软件可靠性工程)的知识体系、理论体系;讲清楚SRE工程的方法体系,如何设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因,并快速修复故障。也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。本课程理论结合工程实践,会附加大量的实践案例。
课程收益
1. 知识体系完整、理论升华:
1) 学员讲清晰地理解什么是SRE、发生发展过程
2) SRE的方法体系、理论体系
2. 方法体系完整:
1) 讲述整套体系,行业当前的大部分热门方法,都能在这个框架里学到
3. 实践性强:
1) 中大互联网企业实践案例总结,属于行业最先进的经验,大部分可直接参考,甚至拿来用
受众人群
企业对象:互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门
学员对象:运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师
课程周期
3天(18小时)
课程大纲
主题 | 内容 |
第一部分(1天) | 1. SRE概念发展 2. 传统可靠性的学科方法,传统软件可靠性的学科方法互联网可靠性普遍方法,先进方法 3. SRE的理念、原则、方法 4. 培训对象SRE组织的现状,工作模式学员成长经历,如何走到当下,分析当下状况 |
1. 可靠性设计:SRE如何参与和改进设计,从上层业务、应用、微服务、基础架构。设计或改进高可用系统 2. 项目实践案例&沙盘 | |
第二部分(1天) | 1. 可靠性观测能力:如何做好监控观测、AIOps的应用、快速发现故障、确定影响、故障定界、根因定位、并帮助做出修复决策 2. 项目实践案例&沙盘 |
1. 故障快速修复能力&保障能力:如何建设预案能力和快速保障能力 2. 项目实践案例&沙盘 | |
第三部分(1天) | 1. 可靠性试验和混沌工程:做好混沌工作,提前演练,防止人为故障 2. 项目实践案例&沙盘 |
1. SRE规划&团队转型&故障复盘 2. 实际业务为案例 |