构建 AI 原生调度生态: 通过 HAMi 释放异构 AI 算力芯片的推理潜能
内容简介:
随着 AIGC 技术普及,数据中心面临多厂商 AI 芯片共存的复杂场景 —— 从英伟达、AMD到寒武纪、昇腾、沐曦、昆仑芯、壁仞等国产芯片。如何在Kubernetes环境下统一管理、高效调度、一致可观测性这些异构 GPU ,实现高效的AI工作负载调度,最大化利用率,成为亟需解决的难题。
本次分享将深入剖析 CNCF 开源项目 HAMi,唯一专注在异构 GPU 调度的开源项目,拥有超过 15 个国家 350+ 贡献者的活跃社区。重点围绕 HAMi 项目以及上下游生态,构建从 GPU 硬件调度抽象到推理任务高效调度的完整 AI Infra 生态。通过真实生产案例,展示如何解决异构算力时代管理挑战,实现训练与推理一体化的高效编排,通过 GPU 共享最大化释放硬件潜能。
演讲提纲:
1.异构AI调度生态架构
1.1多厂商AI芯片共存的现实挑战
1.2HAMi + Volcano/Koordinator/Kueue 协同架构解析
1.3从硬件抽象到作业调度的完整技术栈
2.HAMi:异构硬件统一管理实践
2.1类头部GPU厂商 AI加速芯片的统一调度能力
2.2虚拟化、拓扑感知、装箱/分散调度策略
2.3英伟达统一内存与K8s的无缝集成
3.生态协同的生产实践
3.1HAMi × Volcano:AI批处理任务的高效编排
3.2HAMi × Koordinator:在线/离线混部场景优化
3.3HAMi × Kueue:训练推理一体化的队列管理
4.可观测性与最佳实践
4.1调度决策与GPU使用情况的全链路监控
4.2生产环境踩坑经验与性能调优策略
5.HAMi 生产落地案例
5.1顺丰科技利用 HAMi 构建快递物流行业高效利用 GPU 白皮书
5.2越南最大电信公司
5.3东南亚 prepedu
听众收益:
1.技术能力提升:掌握Kubernetes环境下异构AI芯片的统一管理和协同调度技术,成为AI基础设施领域的技术专家。
2.实战经验获取:获得完整的生产级部署方案和优化策略,可直接应用于AI项目落地,加速技术选型和实施进程。
3.前沿视野拓展:了解云原生AI调度生态的最新发展趋势,为个人成长和团队技术决策提供战略指导。
DaoCloud,高级技术经理 & 容器团队 Leader 2018-12 至今拿吧信息,资深软件工程师 2017-12 ~ 2018-12生意专家,软件工程师,2016-12 ~ 2017-12上海商毅 软件工程师 2015-07 ~ 2016-12。10 余年云原生、容器、AI Infra 领域研发、架构设计以及团队管理经验研究方向 容器管理、多云、多集群、大规模集群高可用、AI Infra 等领域。带领 20+ 研发团队主导 DaoCloud 容器平台的架构设计、技术研发、研究工作,该产品多次入围 Gartner 容器管理魔力象限。拥有超过 5+ 的云计算相关发明专利。