AIOps在大模型训练场景的实践

Zane Wang 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某知名金融科技公司AIOps专家

浏览：460次

详情 DETAILS

课程简介

大模型训练是一项复杂的系统性工程，训练过程中会遇到算法模型迭代、训练框架适配、海量数据大带宽、硬件设备故障、软件兼容性问题、网络通信异常、存储写入失败等各种挑战，因此高效地完成一次大模型训练是业界普遍追求的目标。

对比传统应用使用的通用算力(CPU)资源，智算(GPU)资源不仅昂贵，在训练过程中对基础设施也提出了更加高的复杂结构性要求。为了达成高效训练的目标，企业借助AIOps快速发现训练问题、定位故障根源、快速恢复任务，进而保障了模型训练的有效时长，提升和保证资源的有效利用。

本次分享保障模型训练任务稳定性和提升训练效率方面的经验，将AIOps结合大模型训练场景，为训练过程中的异常检查、故障定位、以及任务恢复提供更加有效的手段，通过实践案例分享和行业同仁进行交流，为相关从业人员提供借鉴。。

课程收益

1、帮助学员了解AIOps与大模型训练融合实践

2、帮助学员掌握构建智能化、可观测控体系和高效的故障自愈机制

3、帮助学员了解运维算法应用，对异常训练任务进行诊断，快速定位出发生故障原因等诸多异常的解决办法。

受众人群

算法工程师、运维专家、系统架构师及技术管理者等从事大模型训练、运维管理的技术人员，以及其他对智能运维感兴趣的人员

课程周期

0.5天（3H）

课程大纲

1、分享大模型训框架及练流程；

2、通过异常检测算法及时发现训练任务异常；

3、通过相关性算法和专家知识库，对异常训练任务进行诊断，快速定位出发生故障原因和异常实体；

4、结合EDL框架及K8S调度技术，快速隔离故障实体、恢复任务，保障训练过程的有效训练时长；

5、QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE