大规模Kubernetes集群管理和资源利用率提升
Kctuzo Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
蚂蚁金服高级技术专家。负责蚂蚁集团基于 Kubernetes 的集群管理、容器调度、离在线混部、资源利用率提升等工作。
浏览:1526次
详情 DETAILS

课程简介

    本课程通过讲解行业可观测性的现状,stack日志、字段解析、IP/UA位置加工、ES查询、统计DSLSQLPromQL、告警监控等案例。可以使学员掌握如何查询分析语法,了解行业可视化(KibanaGrafana+Promethues+AlertManager)、告警方案的挑战及相关核心技能的最佳实践。

随着 Kubernetes 逐渐成为容器编排的既定标准,越来越多的企业都开始在生产环境使用 Kubernetes,虽然 Kubernetes 能解决容器编排领域诸多构建、部署、交付的问题,但是仍然 有一些场景是它很难处理或者回避处理的。

    本次分享根据蚂蚁集团大规模 Kubernetes 集群的实践经验为基础,分成大规模K8S架构和动态混部调度两个部分来展开。一方面分享如何将蚂蚁的 Kubernetes 集群从千级别节点突破到 1w+ 节点 40w+ 容器的规模同时又保证长期稳定运行。包括如何建设生产级的 Kubernetes SLO 体系、如何增强 ApiServer etcd 的能力、如何做到所有组件的 49 的高可用等级等。

    另一方面分享如何将我们的 Kubernetes 集群资源利用率从 10% 提升至 40%。这部分包括蚂蚁的混部部署架构、job on k8s架构、自研增强的调度能力以及集群、应用弹性伸缩技术等。

课程收益

1目标:

① Kubernetes 集群可以做到的生产级稳定规模是多大

② Kubernetes 集群可以做到的资源利用率可以多高

2成功(或教训)要点:

① 树立标准化的 SLO 体系

② 架构规模化改造

③ 资源错峰复用和不同特征 workload 混合部署

④ 资源弹性伸缩

 3启示:

    大规模集群和多生态应用混部才能带来成本的极大降低,通过对 Kubernetes 进行规模化架构改造,同时树立运行 SLO 标准,结合混部技术和弹性伸缩技术,让 Kubernetes 集群在实际生产中变得又省又稳。

受众人群

运维工程师,系统工程师,Devops工程师,想掌握容器相关知识的IT工程师。

课程周期

1天

课程大纲

1. 蚂蚁集团云原生实践经验

2. 大规模 Kubernetes 集群落地的经验和教训

3. 成本大幅度下降、资源利用率提升相关的混部和调度技术

4. Kubernetes 和应用长期稳定运行的 SLO 技巧

5. 支持 Job 调度所需要的调度能力

6. QA



预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1