课程简介
自从1950年代人工智能这个概念被提出,到1980年,机器学习开始越来越受欢迎,大约到了2010年,深度学习在弱人工智能系统方面有了重大的进展。而2020年之后,深度学习迎来了大模型。可以说大模型在产学各界掀起一阵阵巨浪,背后彰显的除了对分布式并行和对AI算法的掌控能力之外,还是一次大公司通过AI工程的创举,利用大规模AI集群来进行掰手腕的故事。
本次分享讲述了大规模模型训练所涉及的各个组成部分及技术原理,以帮助大家了解大模型的发展脉络与分布式训练的整个体系结构。
课程收益
1. 了解大模型的特征以及现阶段面临的挑战
2. 掌握大规模模型训练所涉及的各个组成部分及技术原理
3. 掌握AI集群及AI集群通信机制
受众人群
算法工程师、系统架构师、大数据开发工程师以及其他对AI感兴趣的人员。
课程周期
1天(6小时)
课程大纲
课程主题 | 课程内容 |
专题1:背景现状 | 1.深度学习迎来大模型 2.什么是大模型 3.大模型的用处 4.大模型训练面临的挑战 5.分布式训练的目标 |
专题2:AI集群
| 1.分布式训练系统架构 2.参数服务器(P/S)架构 3.环同步 |
专题3:AI集群通信机制 | 1.通信软硬件 2.通信实现方式 3.通信的步调 4.通信的频率 |