从传统运维走向智能运维
Cole Gong 查看讲师
百林哲咨询(北京)有限公司专家团队成员
现任大型互联网公司智能运维副总监,硕士毕业于哈尔滨工业大学计算机应用专业。在网站的稳定性建设、架构的高可用建设、智能运维等方面有丰富的经验。
浏览:2846次
详情 DETAILS

课程简介

随着业务复杂度的上升和微服务架构的兴起,服务的数量越来越多、调用关系越来越复杂,依靠传统的方式去发现故障、排查和解决故障已经远远不能满足需求。通过将人工智能技术与运维业务结合起来,我们可以做到:故障时通过多维度的异常检测发现故障,告警收敛和告警合并算法会精准的发出告警,运维大脑基于知识图谱自动给出故障的根源原因分析,推荐故障处理策略和自动进行故障自愈,最后自动对故障进行影响评估。平时通过混沌工程和服务治理发现和整改系统中的风险点,有效的保障了服务稳定性。

课程收益

1.目标:学习到当前互联网公司在智能运维领域的最新进展和实践经验,并能应用到工作中去。

2.成功要点:人工智能在智能运维领域的应用实践。

3.启示:在经历了手工运维、运维工具、运维平台等几个阶段之后,我们进入了智能运维阶段。智能运维很好的将人工智能相关的技术与运维的业务结合起来,充分的发挥了人工智能的算法优势和计算机的算力优势,有力的保障了服务的稳定性,提升了运维效率。相信人工智能技术未来一定能带来无限可能。

受众人群

做运维、运维自动化、智能运维相关的技术和管理人员。

课程周期

2天(12H)

课程大纲


主题

授课内容

一、智能运维概述

智能运维能带来哪些收益

智能运维面临的挑战

智能运维依赖的基础

进入智能运维领域的切入点

当前智能运维能达到的效果

二、监控的自动添加

如何保证监控和告警的覆盖率,减少漏报率和误报率

大规模微服务集群如何设计监控管理模型

如何以较小的代价完成监控数据的采集

如何自动化的完成告警策略的添加

三、多类型数据的异常检测

业界常用的算法原理和适用场景

在海量指标场景下,如何高效的做异常检测

使用算法自适应的调整告警阈值

如何构建具有普适性的异常检测算法

无监督与有监督方法的对比

如何有效的将无监督与有监督方法结合起来

如何选择合适的模型以及对模型进行评估和优化

四、告警收敛和告警合并

如何在工程层面简单有效的做告警收敛

如何使用算法技术做多维度的自适应告警合并

如何让告警合并发挥更大的效力

如何做告警数量和质量的治理

如何将告警信息更多元化,提升用户体验

五、故障根因分析

故障排查和定位面临的挑战

如何由浅入深的进入故障根因分析领域

如何构建运维知识图谱,赋予运维大脑领域知识

如何自动采集服务调用链

如何为计算机赋能逻辑推理能力

如何将复杂的故障根源原因简单、清晰的展示出来

六、服务质量评估和技术风险挖掘

如何为业务老大和高级技术管理者提供宏观技术数据

如何评估服务稳定性、运维效率和成本的优化效果

如何通过数据挖掘技术风险,并推动整改

七、构建海量数据实时计算引擎

如何实现高可用性、高可靠性、高可扩展性的系统

如何采集海量服务器和容器内监控数据

如何以较小代价将多种多样的数据接入监控系统

如何设计后端架构高效的完成数据传输、存储、异常判断、根因分析

八、运营推广和提升用户满意度

如何使用数据分析的方式驱动系统演进

如何对智能运维系统进行运营推广

如何提升用户满意度和影响力

九、Q&A

案例分享


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1