强业务韧性的云原生可观测运维技术
Gavin Zhang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
资深运维专家、架构师,中国信通院分布式系统稳定性实验室高级技术专家。拥有20余年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。
浏览:704次
详情 DETAILS

课程简介

数字化转型浪潮下,企业IT架构进入云原生时代,实现了效率提升,也带来了更为复杂的运维挑战。交付效率要求提高,持续构建与发布、故障应对都让系统复杂程度升级,快速定位问题、提供链路分析、生命周期缩短,故障环境修复等,都能够通过系统可观测性建设得到答案。

系统可观测性成为必要,大型互联网应用的显著特点是高并发和复杂的架构体系。在这个技术架构中,服务链路错综复杂、微服务与分布式趋势增强,环境容器化等一系列变化也使得监控技术必须改变。此时,传统的监控技术已经不足以满足企业的高效排障的运维需求,这也正是可观测性取代传统监控成功上位的原因。

企业传统监控告警存在监控割裂、系统多、关联弱等问题,导致发现、定界、定位故障的能力不足,可观测性是解决这些不足之处的新晋热门技术。为提升大型系统的业务韧性,必须在监控告警体系之上进行升级,加强可观测性建设。为提升可观测性,需要深入理解业务架构,对观测对象分层分级、对观测数据进行横向纵向的关联、充分利用算法能力和数据分析能力让工程师变被动为主动,从而更快发现故障定位问题。

本次分享在复杂互联网平台如何加强可观测性建设,通过讲解案例讲解落地方法,重点讲述SRE如何通过可观测性来发现、定位、判断故障、修复决策,算法来自动化定界定位,帮助企业建设一体化平台化,升级运维体验。

课程收益

.目标:

1SRE大型IT系统建设和改进增强可观测性能力;

2SRE通过建设可观测性,达成跟研发、业务对齐工作目标和创造价值、体现价值的效果。

.成功(或教训)要点:

1)横向服务大量的业务,以一套统一的、低成本、高效的观测系统能对稳定性保障有重大帮助,能帮助工程团队对业务有更深刻认知;

2)纵向观测可深入理解系统的技术架构、系统架构。SRE可观测性建设需要加强关联性,把海量的状态信息串联起来,通过AIOps算法去理解系统状态,感知系统状态变化。

3启示

可观测性建设需要SRE围绕软件系统生命周期管理,从其设计到部署各个阶段加强观测性,认识到观测性的本质、深入理解系统,在系统发生变化后能快速感知到,做出准确决策并行动。

受众人群

运维经理、运维工程师,以及对智能运维有兴趣的朋友

课程周期

0.53H) 

课程大纲

分享内容

1. 复杂互联网软件系统中如何建设可观测性

2. 通过可观测性来发现、定位、判断故障,及案例

3. 告警即定界的建设思路及实践案例

4. QA

 


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1