基于 Intel® Xeon® 6 的 DeepSeek R1 高效低成本部署落地实践
Marcus Ma 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某知名半导体行业龙头企业AI软件架构师
浏览:38次
详情 DETAILS

课程简介

近年来,DeepSeek-V3/R1、LLaMA-4 和 Qwen 3 等超大规模专家混合(MoE)模型在大语言模型(LLM)领域表现出色。然而,这类MoE模型显著增加了内存开销,部署时通常需要8卡甚至16卡高端 AI 加速器,提高了系统成本。

Intel PyTorch 团队为 SGLang 项目贡献了 CPU 后端的支持,并提出了一种基于第六代 Intel® Xeon® 可扩展处理器的高性能纯 CPU 部署方案,成本仅为传统方案的一小部分。借助Intel AMX(Advanced Matrix Extensions)实现FlashMLA 和 MoE 模块的优化算子,在 TTFT(首次 Token 生成时间)上相比 llama.cpp 实现 6–14 倍提速,在 TPOT(总吞吐量)上实现 2–4 倍提速。大幅降低了中低并发场景下大规模 MoE 模型部署的成本。

本次分享将系统阐述内核级优化的技术细节,涵盖任务划分策略、内存访问效率优化,以及基于 Intel® AMX 实现高度优化的 GEMM 算法。重点解析以下三个关键性能热点:RadixAttention,MoE(混合专家模型)和非原生条件下的FP8 GEMM。 为与会者提供最直接的借鉴。

课程收益

1、帮助学员掌握 LLM 部署中 CPU 与 GPU/CPU 混合架构的成本优化策略

2、帮助学员突破内核性能瓶颈,精通关键热点优化技术;

3、帮助学员解锁 MoE 模型低成本部署路径,赋能边缘与大规模线上场景

受众人群

AI 基础设施架构师、大模型推理优化工程师、云计算解决方案工程师、企业AI 技术负责人,以及其他对大模型感兴趣的人员

课程周期

 0.5天(3H)

课程大纲

1、SGLang 已原生支持在搭载 Intel® Advanced Matrix Extensions (AMX) 的 Intel® Xeon® CPU 上运行的 CPU 后端。

2、支持在 Dense FFN 和 Sparse FFN(MoE)中使用 BF16、INT8 和 FP8 数据格式。

3、在 TTFT(首次 Token 生成时间)上相比 llama.cpp 实现 6–14 倍提速,在 TPOT(总吞吐量)上实现 2–4 倍提速。

4、通过对 MoE 内核的高度优化,实现了 85% 的内存带宽利用率。

5、支持通过张量并行(TP)实现跨 NUMA 节点的并行计算。

6、QA


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1