简介
本课程针对从事Kafka运维和开发1-5年的同学。由于各种原因,导致对Kafka整体系统够和各种(底层)原理机制了解不是很深刻;随着公司业务发展和流量飙升,集群运行中遇到各种各样的瓶颈问题急需解决的。比如稳定性不足,Kafka经常挂掉,客户端把集群打挂,整体资源利用率不高,局部有热点,双机房容灾不知道如何实施落地等等。
目标
1.学员将全面了解Kafka整体系统架构
2.学会解决集群运行中的各种问题
课程时长
2天(12H)
受众人群
从事Kafka运维和开发1-5年的同学
分享提纲
1. kafka为什么性能高 | 1.1 NIO 1.2 pagecache 1.3 sendfile |
2. Kafka vs RocketMQ | 2.1 Kafka设计背景 2.2 RocketMQ设计背景 2.3 二者QPS性能比较 2.4 二者IO性能比较 2.5 二者pagecache命中率比较 |
3. zookeper部署实践 | 3.1 部署架构变迁 3.2 优化实践 |
4.百台物理机大集群大负载优化实践 | 4.1 客户端配置优化 4.2 内核配置优化 4.3 broker配置优化 4.4 kafka jvm优化历程 4.5磁盘数据倾斜均衡化 4.6 IO冷热严重不均优化 4.7 Kafka运行的bug处理及略坑 4.8 如何计算pagecache命中率 |
5. 千台机器集群安全升级实践 | 5.1设计方案 5.2 验证演练 5.3 固化流程 5.4 进行升级 5.5 经验总结 |
6.做机房容灾实践 | 6.1双机热备 6.2同城双活 6.3异地双活 6.4异地多活 |
7. Kafka集群运维与运营实践 | 7.1 制定sop操作流程 7.1.1 broker优化sop 7.1.2 业务客户端优化sop 7.2 数据大盘 7.3 各维度监控 7.3.1基础监控 7.3.2 jvm监控 7.3.3业务监控 7.3.4客户端监控 7.4 多维度数据统计快速发现问题 7.4.1 top流量topics降序列表 7.4.2 top磁盘挂载点IOutil降序列表 7.4.3 xxx |
8. kafka + spark结合(可选) | 8.1 并行消费 8.2 串行消费 |
9. kafka + flink结合(可选) | 9.1 应用sample 9.2 事务支持 |
10.kafka + canal结合(可选) |