课程简介
随着业务复杂度的上升和微服务架构的兴起,服务的数量越来越多、调用关系越来越复杂,依靠传统的方式去发现故障、排查和解决故障已经远远不能满足需求。通过将人工智能技术与运维业务结合起来,我们可以做到:故障时通过多维度的异常检测发现故障,告警收敛和告警合并算法会精准的发出告警,运维大脑基于知识图谱自动给出故障的根源原因分析,推荐故障处理策略和自动进行故障自愈,最后自动对故障进行影响评估。平时通过混沌工程和服务治理发现和整改系统中的风险点,有效的保障了服务稳定性。
课程收益
1.目标:学习到当前互联网公司在智能运维领域的最新进展和实践经验,并能应用到工作中去。
2.成功要点:人工智能在智能运维领域的应用实践。
3.启示:在经历了手工运维、运维工具、运维平台等几个阶段之后,我们进入了智能运维阶段。智能运维很好的将人工智能相关的技术与运维的业务结合起来,充分的发挥了人工智能的算法优势和计算机的算力优势,有力的保障了服务的稳定性,提升了运维效率。相信人工智能技术未来一定能带来无限可能。
受众人群
做运维、运维自动化、智能运维相关的技术和管理人员。
课程周期
2天(12H)
课程大纲
主题 | 授课内容 |
一、智能运维概述 | 智能运维能带来哪些收益 智能运维面临的挑战 智能运维依赖的基础 进入智能运维领域的切入点 当前智能运维能达到的效果 |
二、监控的自动添加 | 如何保证监控和告警的覆盖率,减少漏报率和误报率 大规模微服务集群如何设计监控管理模型 如何以较小的代价完成监控数据的采集 如何自动化的完成告警策略的添加 |
三、多类型数据的异常检测 | 业界常用的算法原理和适用场景 在海量指标场景下,如何高效的做异常检测 使用算法自适应的调整告警阈值 如何构建具有普适性的异常检测算法 无监督与有监督方法的对比 如何有效的将无监督与有监督方法结合起来 如何选择合适的模型以及对模型进行评估和优化 |
四、告警收敛和告警合并 | 如何在工程层面简单有效的做告警收敛 如何使用算法技术做多维度的自适应告警合并 如何让告警合并发挥更大的效力 如何做告警数量和质量的治理 如何将告警信息更多元化,提升用户体验 |
五、故障根因分析 | 故障排查和定位面临的挑战 如何由浅入深的进入故障根因分析领域 如何构建运维知识图谱,赋予运维大脑领域知识 如何自动采集服务调用链 如何为计算机赋能逻辑推理能力 如何将复杂的故障根源原因简单、清晰的展示出来 |
六、服务质量评估和技术风险挖掘 | 如何为业务老大和高级技术管理者提供宏观技术数据 如何评估服务稳定性、运维效率和成本的优化效果 如何通过数据挖掘技术风险,并推动整改 |
七、构建海量数据实时计算引擎 | 如何实现高可用性、高可靠性、高可扩展性的系统 如何采集海量服务器和容器内监控数据 如何以较小代价将多种多样的数据接入监控系统 如何设计后端架构高效的完成数据传输、存储、异常判断、根因分析 |
八、运营推广和提升用户满意度 | 如何使用数据分析的方式驱动系统演进 如何对智能运维系统进行运营推广 如何提升用户满意度和影响力 |
九、Q&A | 案例分享 |
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员