课程简介
数字化转型浪潮下,企业IT架构进入云原生时代,实现了效率提升,也带来了更为复杂的运维挑战。交付效率要求提高,持续构建与发布、故障应对都让系统复杂程度升级,快速定位问题、提供链路分析、生命周期缩短,故障环境修复等,都能够通过系统可观测性建设得到答案。
系统可观测性成为必要,大型互联网应用的显著特点是高并发和复杂的架构体系。在这个技术架构中,服务链路错综复杂、微服务与分布式趋势增强,环境容器化等一系列变化也使得监控技术必须改变。此时,传统的监控技术已经不足以满足企业的高效排障的运维需求,这也正是可观测性取代传统监控成功上位的原因。
企业传统监控告警存在监控割裂、系统多、关联弱等问题,导致发现、定界、定位故障的能力不足,可观测性是解决这些不足之处的新晋热门技术。为提升大型系统的业务韧性,必须在监控告警体系之上进行升级,加强可观测性建设。为提升可观测性,需要深入理解业务架构,对观测对象分层分级、对观测数据进行横向纵向的关联、充分利用算法能力和数据分析能力让工程师变被动为主动,从而更快发现故障定位问题。
本次分享在复杂互联网平台如何加强可观测性建设,通过讲解案例讲解落地方法,重点讲述SRE如何通过可观测性来发现、定位、判断故障、修复决策,算法来自动化定界定位,帮助企业建设一体化平台化,升级运维体验。
课程收益
1.目标:
1)SRE大型IT系统建设和改进增强可观测性能力;
2)SRE通过建设可观测性,达成跟研发、业务对齐工作目标和创造价值、体现价值的效果。
2.成功(或教训)要点:
1)横向服务大量的业务,以一套统一的、低成本、高效的观测系统能对稳定性保障有重大帮助,能帮助工程团队对业务有更深刻认知;
2)纵向观测可深入理解系统的技术架构、系统架构。SRE可观测性建设需要加强关联性,把海量的状态信息串联起来,通过AIOps算法去理解系统状态,感知系统状态变化。
3启示
可观测性建设需要SRE围绕软件系统生命周期管理,从其设计到部署各个阶段加强观测性,认识到观测性的本质、深入理解系统,在系统发生变化后能快速感知到,做出准确决策并行动。
受众人群
运维经理、运维工程师,以及对智能运维有兴趣的朋友
课程周期
0.5天(3H)
课程大纲
分享内容 |
1. 复杂互联网软件系统中如何建设可观测性 2. 通过可观测性来发现、定位、判断故障,及案例 3. 告警即定界的建设思路及实践案例 4. QA |