课程简介
大模型训练是一项复杂的系统性工程,训练过程中会遇到算法模型迭代、训练框架适配、海量数据大带宽、硬件设备故障、软件兼容性问题、网络通信异常、存储写入失败等各种挑战,因此高效地完成一次大模型训练是业界普遍追求的目标。
对比传统应用使用的通用算力(CPU)资源,智算(GPU)资源不仅昂贵,在训练过程中对基础设施也提出了更加高的复杂结构性要求。为了达成高效训练的目标,企业借助AIOps快速发现训练问题、定位故障根源、快速恢复任务,进而保障了模型训练的有效时长,提升和保证资源的有效利用。
本次分享保障模型训练任务稳定性和提升训练效率方面的经验,将AIOps结合大模型训练场景,为训练过程中的异常检查、故障定位、以及任务恢复提供更加有效的手段,通过实践案例分享和行业同仁进行交流,为相关从业人员提供借鉴。。
课程收益
1、帮助学员了解AIOps与大模型训练融合实践
2、帮助学员掌握构建智能化、可观测控体系和高效的故障自愈机制
3、帮助学员了解运维算法应用,对异常训练任务进行诊断,快速定位出发生故障原因等诸多异常的解决办法。
受众人群
算法工程师、运维专家、系统架构师及技术管理者等从事大模型训练、运维管理的技术人员,以及其他对智能运维感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、分享大模型训框架及练流程;
2、通过异常检测算法及时发现训练任务异常;
3、通过相关性算法和专家知识库,对异常训练任务进行诊断,快速定位出发生故障原因和异常实体;
4、结合EDL框架及K8S调度技术,快速隔离故障实体、恢复任务,保障训练过程的有效训练时长;
5、QA