AIOps在大模型训练场景的实践
Zane Wang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某知名金融科技公司AIOps专家
浏览:28次
详情 DETAILS

课程简介

大模型训练是一项复杂的系统性工程,训练过程中会遇到算法模型迭代、训练框架适配、海量数据大带宽、硬件设备故障、软件兼容性问题、网络通信异常、存储写入失败等各种挑战,因此高效地完成一次大模型训练是业界普遍追求的目标。

对比传统应用使用的通用算力(CPU)资源,智算(GPU)资源不仅昂贵,在训练过程中对基础设施也提出了更加高的复杂结构性要求。为了达成高效训练的目标,企业借助AIOps快速发现训练问题、定位故障根源、快速恢复任务,进而保障了模型训练的有效时长,提升和保证资源的有效利用。

本次分享保障模型训练任务稳定性和提升训练效率方面的经验,将AIOps结合大模型训练场景,为训练过程中的异常检查、故障定位、以及任务恢复提供更加有效的手段,通过实践案例分享和行业同仁进行交流,为相关从业人员提供借鉴。

课程收益

1、帮助学员了解AIOps与大模型训练融合实践

2、帮助学员掌握构建智能化、可观测控体系和高效的故障自愈机制

3、帮助学员了解运维算法应用,对异常训练任务进行诊断,快速定位出发生故障原因等诸多异常的解决办法。

受众人群

算法工程师、运维专家、系统架构师及技术管理者等从事大模型训练、运维管理的技术人员,以及其他对智能运维感兴趣的人员

课程周期

 0.5天(3H

课程大纲

1、分享大模型训框架及练流程;

2、通过异常检测算法及时发现训练任务异常;

3、通过相关性算法和专家知识库,对异常训练任务进行诊断,快速定位出发生故障原因和异常实体;

4、结合EDL框架及K8S调度技术,快速隔离故障实体、恢复任务,保障训练过程的有效训练时长;

5、QA

预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1