面向 AI Agent 时代的下一代推理基础设施:
AI Serving Stack 架构解析与生产级实践
车 漾
阿里云高级技术专家及CNCF Fluid项目联合发起人
内容简介:
当AI Agent从人类手中接过Token消耗的指挥棒,大模型推理服务正经历从”面向Chatbot”到”面向智能体”的结构性跃迁。7×24小时不间断工作的Agent带来单次任务百次工具调用、10:1至100:1的输入输出比、常态性突破100K的长上下文,彻底重塑了负载特征与成本模型。
本次演讲将深度解析由 SGLang、Mooncake、阿里云及高校联合打造的开源解决方案——AI Serving Stack。我们将探讨如何通过 Kubernetes 标准 API RoleBasedGroup (RBG) 实现推理服务的拓扑感知编排;如何利用 SMG 网关实现 KVCache 感知的智能路由;以及如何借助 Mooncake 实现以 KVCache 为中心的存储计算解耦与 PD(Prefill-Decode)分离架构。结合小红书等企业的落地案例,展示该架构如何将 GPU 利用率大幅度提升,实现成本节约超 50%,为构建高吞吐、低延迟、可观测的生产级 Agent 基础设施提供最佳实践参考。
演讲提纲:
1. 背景:AI Agent 崛起带来的基础设施范式转移
1.1 负载特征质变:从“离散低频”的人类请求到“持续高频”的 Agent 协作(结构化请求、长上下文)。
1.2 核心痛点分析:
- 状态化需求:KVCache 从“临时缓存”变为“数字记忆体”的挑战。
- 资源效率瓶颈:单体 Pod 部署导致的 Prefill/Decode 资源错配。
- 弹性滞后:分钟级弹性无法满足秒级扩缩容需求。
2. 架构设计:AI Serving Stack 核心解密
2.1 编排层(RBG):
- 引入 RoleBasedGroup:将单体 Deployment 拆解为拓扑化的角色有机体。
- SCOPE 五大能力:实现 Router、Prefill、Decode 的协同调度与原子化管理。
2.2 路由层(SMG):
- 从轮询到智能:实现基于 KVCache 命中率、PD 分离感知的差异化调度策略。
- 优先级队列与过载保护:保障不同 SLO 任务的稳定性。
3. 存储与计算层(Mooncake & SGLang):
- 以 KVCache 为中心的 PD 分离架构。
- Transfer Engine 与池化共享:跨实例、跨节点的零拷贝数据传输与复用。
3. 生产实践与收益
3.1 落地案例:Qwen 大模型在小红书 PD 分离架构下的部署实战。
3.2 工程实践:从架构到指标
- 小红书案例:分钟级模型运维、50%+成本节省、发布失败率降至5%
- Qwen3-235B性能数据:PD分离下2.74 QPS、P99延迟<80ms、GPU利用率70%
- 弹性效率:秒级扩缩容、潮汐混部、一键部署<5分钟
4. 未来展望与开源生态
4.1 全栈开源与多框架兼容性(vLLM, TensorRT-LLM)。
4.2 从“经验驱动”到“数据驱动”的自动配置优化。
听众收益:
洞察趋势:深入理解 AI Agent 时代大模型推理面临的“规模经济”向“效率经济”转型的底层逻辑。
掌握架构:学习业界领先的 PD 分离(Prefill-Decode Separation)与 KVCache 分离架构的设计原理与实现细节。
落地指南:获得一套经过生产环境验证的、全栈开源的 Kubernetes 推理编排方案(AI Serving Stack),了解如何解决资源利用率低和弹性伸缩慢的实际难题。
开源方案:全面了解AI Serving Stack全栈开源技术生态,获取零商业锁定的生产级落地路径与CNCF标准化演进方向
避坑经验:借鉴大规模分布式推理场景下的运维经验,包括故障协同自愈、配置自动化及全链路可观测性建设。
阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化项目,并推动RBG(RoleBasedGroup)项目成为SGLang社区云原生编排项目,使能云原生AI从理论创新到千卡推理场景的规模落地。