课程简介
随着AI能力的普及,OPS场景的可观测根因定位与告警分析正朝着更加智能化、自动化、实时化及业务贴合的方向发展。企业结合大模型、算法帮助提升运维工作效率,尤其是故障场景中的发现、分析、定位等环节的工作效率,均成为AIOPS行业应用趋势。
目前云计算和微服务架构的复杂性给运维工作带来了巨大挑战,当故障频发,如何提升故障解决效率成为行业热题。目前行业内主要用“1-5-10”来描述故障从发现到定位到恢复的生命周期。在故障发现方面, 我们设计了更自适应业务变化的智能告警体系,提升故障1分钟发现效率。在故障定位和告警分析方面,企业通过大模型融合AIOps小模型的技术方案,设计面向快恢的故障分析系统,帮助运维提升故障定位效率,降低人工排障费力度,进而加快故障恢复。
本次分享通过对本公司AIOps的技术体系解析,聚焦故障发现、故障定位、预案联动等场景的智能化实践,帮助行业者深度理解OPS结合大模型、算法来帮助提升1-5-10,进而提升运维效率和稳定性。
课程收益
1、帮助学员了解智能告警体系建设、提升故障1分钟发现的速度,进而提升告警效率。
2、帮助学员了解大型互联网告警分析和故障定位,基于大模型实现的智能根因定位。
3、帮助学员了解面向快恢的故障分析系统实现策略方法
受众人群
算法工程师、运维专家、系统架构师及技术管理者等从事大模型训练、运维管理的技术人员,以及其他对智能运维感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、告警系统体系建设
2、告警分析系统实现
3、故障快恢系统实现
4、QA