内容简介:
PD分离架构在Deepseek的实践证明大规模部署下,可以显著提升LLM推理吞吐并且保障SLO。但是对于比如小规模部署是否可以得到同样的效果,却并没有达成共识。在本次分享中,我们统一评估vLLM/Dynamo/SGLang等开源PD分离小规模部署(H20双机16卡规模),得到在满⾜SLO指标(TTFT 1s,TPOT 50ms)条件下,实测吞吐性能得到明显收益。也就是PD分离架构,并非王谢堂前燕,可以飞入寻常百姓家。但是依然有明确的挑战:
1. PD分离比例设定:如何结合自身的业务场景,输入输出需求,定义合理的PD分离初始值
2. 基于Kubernetes以统一的方式高性能部署:如何使用RoleBasedGroup API(RBG)作为工作负载,在Kubernetes集群中快速部署Dynamo、vLLM及SGLang PD分离推理,结合机内拓扑结构设置 GPU 和⽹卡的亲和性关系调度,实现性能的最大化化,结合通过Envoy结合Open Request Cost Aggregation (ORCA)根据KVCache和队列等待时间进行负载均衡。
3. 生产环境的服务化治理:无损的滚动升级,避免KVCache误删导致的大量重算和丰富自动的故障恢复策略。
4. 弹性伸缩:根据监控和事件驱动的机制动态调整PD的数量满足SLO的需求。
揭秘PD分离在不同规模场景下的最佳实践路径。
演讲提纲:
1.背景介绍
1.1LLM推理的需求与挑战
1.2PD分离技术介绍
1.3大规模部署中的PD分离架构优势
-提升推理吞吐量
-保证SLO(TTFT 1s,TPOT 50ms)
2.小规模部署的探索与评估
2.1评估方法
-使用H20双机16卡进行测试
-应用vLLM、Dynamo、SGLang等开源工具
2.2实测结果
-吞吐性能的提升
-满足SLO指标的条件下的收益
3.关键技术挑战与解决方案
3.1PD分离比例设定
-以SGLang+Mooncake为例分析如何根据业务场景调整初始值
3.2高性能部署
-开源方案RoleBasedGroup API(RBG)的架构和应用
-RoleBasedGroup API(RBG)工作负载管理的优势
-Envoy与ORCA的负载均衡策略
-基于拓扑感知的资源调度优化
3.3服务化治理
-无损滚动升级的实现
-自动恢复的场景和实现
3.4弹性伸缩的实现
-基于TTFT/TPOT等SLO指标
-动态调整PD分离比例的方法
-实现弹性扩缩容的技术细节
听众收益:
1. 颠覆规模认知,提供普惠级优化
1.1提供 “小规模PD分离效能公式” 与 16卡拓扑优化方案,突破小规模部署无需PD分离的认知
1.2掌握在中小集群(≤50卡)实现 吞吐提升的实证方法
2. 获得基于开源的生产级架构蓝图
2.1复用 RBG工作负载+Envoy/ORCA智能路由 标准化部署框架,降低运维复杂度
2.2避免过度复杂设计
3. 构建持续进化能力
3.1学会快速适配vLLM/Dynamo等新引擎
3.2并且掌握大模型生产运维的知识和经验
作为阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化标准,推动云原生AI从理论创新到千卡推理场景的规模落地。