课程简介
不同机器学习应用场景下的参数和数据集、模型训练过程中的网络通信带宽、训练资源数和时长都不尽相同。所以面对丰富的机器学习应用,我们的需求是多样的。针对这些需求,底层的计算、存储、网络等基础设施要提供强大的硬件,同时在这些硬件基础上还要提供强大的调度能力,才能为各种需求提供较好的服务,使集群利用率维持在较高水平。
本次分享字节跳动在高性能算力和存储的规模化调度、机器学习开发流程的标准化和团队协作、基于异构资源的机器学习训练加速方面的技术实践。
课程收益
1、目标
(1)字节跳动内部场景下云原生机器学习的一些的技术和成果
(2)开拓一些新思路,用成功的企业级实践解决 AI 效率和成本问题
2、成功要点
亿级用户规模和不断深研的业务场景,对字节机器学习平台从研发体验、训练时效、任务编排、资源运维等方面不断提出新的要求和挑战,以 K8s 为核心的云原生理念正是为解决以上问题提出,并取得了成功应用。
3、启示
在人工智能时代,将模型构建与训练工作与云原生结合,既降低了 AI 的算力成本,也降低了 AI 的技术门槛,可以极大拓宽 AI 技术的应用边界。
受众人群
架构设计师、云原生架构师、人工智能与云原生结合相关人员、机器学习技术专家以及其他对云原生机器学习感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
授课内容 |
1. 目前领域相关的挑战 2. 未来的展望 3. QA |