大模型架构创新与工程优化

本论坛聚焦大模型核心技术革新与落地实践,围绕MoE架构、新的记忆机制、检索效率优化、模型压缩蒸馏、推理性能提升、高效训练框架、工程化部署等一些核心主题,汇聚业界专家与技术精英,进行深度解析,分享跨场景创新方案与实操经验,助力听众掌握架构设计核心逻辑、破解落地瓶颈,降低研发成本、提升部署效率,收获可迁移的技术思路与实践方案。
出品人:神秘嘉宾

敬请期待
面向 AI Agent 时代的下一代推理基础设施:
AI Serving Stack 架构解析与生产级实践
车 漾
阿里云高级技术专家及CNCF Fluid项目联合发起人
内容简介:
当AI Agent从人类手中接过Token消耗的指挥棒,大模型推理服务正经历从”面向Chatbot”到”面向智能体”的结构性跃迁。7×24小时不间断工作的Agent带来单次任务百次工具调用、10:1至100:1的输入输出比、常态性突破100K的长上下文,彻底重塑了负载特征与成本模型。
本次演讲将深度解析由 SGLang、Mooncake、阿里云及高校联合打造的开源解决方案——AI Serving Stack。我们将探讨如何通过 Kubernetes 标准 API RoleBasedGroup (RBG) 实现推理服务的拓扑感知编排;如何利用 SMG 网关实现 KVCache 感知的智能路由;以及如何借助 Mooncake 实现以 KVCache 为中心的存储计算解耦与 PD(Prefill-Decode)分离架构。结合小红书等企业的落地案例,展示该架构如何将 GPU 利用率大幅度提升,实现成本节约超 50%,为构建高吞吐、低延迟、可观测的生产级 Agent 基础设施提供最佳实践参考。

演讲提纲:
1. 背景:AI Agent 崛起带来的基础设施范式转移
1.1 负载特征质变:从“离散低频”的人类请求到“持续高频”的 Agent 协作(结构化请求、长上下文)。
1.2 核心痛点分析:
- 状态化需求:KVCache 从“临时缓存”变为“数字记忆体”的挑战。
- 资源效率瓶颈:单体 Pod 部署导致的 Prefill/Decode 资源错配。
- 弹性滞后:分钟级弹性无法满足秒级扩缩容需求。
2. 架构设计:AI Serving Stack 核心解密
2.1 编排层(RBG):
- 引入 RoleBasedGroup:将单体 Deployment 拆解为拓扑化的角色有机体。
- SCOPE 五大能力:实现 Router、Prefill、Decode 的协同调度与原子化管理。
2.2 路由层(SMG):
- 从轮询到智能:实现基于 KVCache 命中率、PD 分离感知的差异化调度策略。
- 优先级队列与过载保护:保障不同 SLO 任务的稳定性。
3. 存储与计算层(Mooncake & SGLang):
- 以 KVCache 为中心的 PD 分离架构。
- Transfer Engine 与池化共享:跨实例、跨节点的零拷贝数据传输与复用。
3. 生产实践与收益
3.1 落地案例:Qwen 大模型在小红书 PD 分离架构下的部署实战。
3.2 工程实践:从架构到指标
- 小红书案例:分钟级模型运维、50%+成本节省、发布失败率降至5%
- Qwen3-235B性能数据:PD分离下2.74 QPS、P99延迟<80ms、GPU利用率70%
- 弹性效率:秒级扩缩容、潮汐混部、一键部署<5分钟
4. 未来展望与开源生态
4.1 全栈开源与多框架兼容性(vLLM, TensorRT-LLM)。
4.2 从“经验驱动”到“数据驱动”的自动配置优化。

听众收益:
洞察趋势:深入理解 AI Agent 时代大模型推理面临的“规模经济”向“效率经济”转型的底层逻辑。
掌握架构:学习业界领先的 PD 分离(Prefill-Decode Separation)与 KVCache 分离架构的设计原理与实现细节。
落地指南:获得一套经过生产环境验证的、全栈开源的 Kubernetes 推理编排方案(AI Serving Stack),了解如何解决资源利用率低和弹性伸缩慢的实际难题。
开源方案:全面了解AI Serving Stack全栈开源技术生态,获取零商业锁定的生产级落地路径与CNCF标准化演进方向
避坑经验:借鉴大规模分布式推理场景下的运维经验,包括故障协同自愈、配置自动化及全链路可观测性建设。

阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化项目,并推动RBG(RoleBasedGroup)项目成为SGLang社区云原生编排项目,使能云原生AI从理论创新到千卡推理场景的规模落地。
AI-Infra全链路性能分析和优化实战
孙禹峰
阿里云 技术专家
内容简介:
从训推业务及Infra痛点入手,聚焦大模型训推全链路性能分析、瓶颈定位与优化的体系和能力。结合多行业云上真实案例,分享从数据侧到计算侧再到通信侧的常见优化方法。以期实现算力效能的最大化释放,为技术团队提供一套可复制的性能分析、定位及优化的方法论,在大幅压缩训练推理成本的同时,确立高吞吐、低延迟的生产级稳定性标准。        

演讲提纲:
1. 背景与挑战:大模型时代的训推性能问题痛点
大模型时代的训推性能问题痛点
对技术服务团队的要求
2. 核心方法论:全链路性能分析体系与瓶颈定位
性能指标体系简介
基于业务场景的分析体系OK
性能瓶颈定位和工具应用
3. 核心方法论:全链路性能优化方法
训推场景的架构优化
差异化场景与分层落地策略
4. 实战攻坚:基于业务场景的深度优化案例
推理场景加速优化实践行业案例
训练场景加速优化实践行业案例
5. 前景与展望

听众收益:
1. 掌握全链路性能分析方法论,精准定位数据、计算、通信瓶颈,提升算力效能与系统稳定性。
2. 借鉴多行业实战案例,学会低成本优化策略,构建高吞吐、低延迟的生产级AI系统。      

现任阿里云公共云技术服务支持专家,8年AI领域实践经验,聚焦于训推框架及AI Infra相关技术,具有多行业云上客户业务的全链路性能分析和优化场景落地的能力。
让智能体可观察、可评估、可进化:
构建面向智能体的新一代可观测评估体系
高梦飞
支付宝 架构师
内容简介:
LLM是一颗重磅炸弹,引爆了全球的智能体应用市场,由于智能体系统在架构、交互模式和运行机制上与传统微服务存在本质差异。基于传统的微服务可观测架构在智能体场景(”鞋不对脚“),面临着成本+效率的双重挑战,进而影响整个智能体高效的迭代与质量的提升。
我们结合SLS+大数据分析+Judge-Model+Tracing等技术,构建智能体深度观测+评估体系,不仅实现了对智能体调用链路的白盒化透视,还实现了调用链路实时评测、归因。问题定位效率从小时级缩短至分钟级,该体系已在生产大规模稳定运行,彻底打破链路过长、节点过多带来的协作壁垒。
本次主要分享在智能体链路观测、跨系统协同、实时效果分析的工程实践,以及在多模态可观测领域的探索。

演讲提纲:
1. 可观测性的升维:智能体评估与调用链路可观测
1.1 传统微服务可观测体系的“水土不服”:
1.2 智能体规模化落地面临的现实挑战:
“我们能快速上线一个智能体,却难以快速定位它为什么‘胡说八道’。”
1.3 支付宝智能体可观测与分析平台(Novaflow)
-定位:支付宝行业智能体全生命周期的健康监测与优化平台。
-核心使命:让每一个智能体的“思考过程”可观察、可评估、可归因、可进化。
2. 核心能力:Novaflow 如何做智能体的“健康专家”?
2.1 在线效果可观测:实时评测 + 自动归因 = 质量闭环
- 在线流量的自动化、标准化评估
- 智能体异常回答与知识库知识的定位与关联
- 更灵活的智能体多节点的AB对照实验
2.2 端到端链路可观测:白盒化透视智能体的“思考路径”
- 超越传统 Tracing:不止于 span,更关注语义节点
- 统一的可观测视图与语义节点建模,让所有角色看到同一份“证据链”,智能体的调用链路“易观测”
- 智能体的对C用户效果可观测,实时感知用户真实体感
- 智能体的链路归因可观测,“谁的问题谁负责”
2.3 问题处置修复可观测
-“问题日结”,智能体每天的问题汇总统一交由算法服务自动化归纳处置
-“问题分拣”,利用大模型与大数据技术自动将问题归纳到不同的处理团队
-“问题去重”,相似异常去重,降低后续的处理量与处理效果
3. 还可以做什么
3.1 图片、音频、视频等模态无法像文本一样直接嵌入传统 Trace 日志。
3.2 跨模态对齐困难(如“图片中的红框区域”对应哪段文本描述?)。

听众收益:
开发者:一套可落地的智能体可观测与分析架构的方法论
平台/SRE:新一代面向 Agent 的监控架构设计参考
算法工程:从“单打独斗”到“能力复用”的工程提效路径
技术管理者:如何系统性保障智能体质量、加速迭代、控制风险

拥有7年大型系统架构设计经验,先后主导过PB级日志系统、亿级业务对账结算系统、大规模智能体可观测分析系统的架构工作。近2年聚焦于AI Infra方向,专注于智能体可观测性、效果评测与归因分析等核心能力建设,致力于通过数据驱动提升智能体系统的透明度、可解释性与持续优化能力。
京ICP备2020039808号-4 京公网安备11011202100922号