大模型架构创新与工程优化

本论坛聚焦大模型核心技术革新与落地实践,围绕MoE架构、新的记忆机制、检索效率优化、模型压缩蒸馏、推理性能提升、高效训练框架、工程化部署等一些核心主题,汇聚业界专家与技术精英,进行深度解析,分享跨场景创新方案与实操经验,助力听众掌握架构设计核心逻辑、破解落地瓶颈,降低研发成本、提升部署效率,收获可迁移的技术思路与实践方案。
出品人:柴思远
大数据算法技术专家,组建智谱解决方案团队,成功推动了大模型技术在多领域的突破性应用。深耕AI技术与企业智能化转型,带领团队与美团、360、金山、小米、小鹏、大众、荣耀等知名企业展开深度合作,为重点大模型项目落地提供强有力的技术解决方案,助力其实现智能化升级与业务创新。历任大搜车数据中台负责人,妙计旅行数据产品负责人,搜狗自然语言研究员等。
智谱 副总裁
面向 AI Agent 时代的下一代推理基础设施:AI Serving Stack 
架构解析与生产级实践
车 漾
阿里云高级技术专家及CNCF Fluid项目联合发起人
内容简介:
当AI Agent从人类手中接过Token消耗的指挥棒,大模型推理服务正经历从”面向Chatbot”到”面向智能体”的结构性跃迁。7×24小时不间断工作的Agent带来单次任务百次工具调用、10:1至100:1的输入输出比、常态性突破100K的长上下文,彻底重塑了负载特征与成本模型。
本次演讲将深度解析由 SGLang、Mooncake、阿里云及高校联合打造的开源解决方案——AI Serving Stack。我们将探讨如何通过 Kubernetes 标准 API RoleBasedGroup (RBG) 实现推理服务的拓扑感知编排;如何利用 SMG 网关实现 KVCache 感知的智能路由;以及如何借助 Mooncake 实现以 KVCache 为中心的存储计算解耦与 PD(Prefill-Decode)分离架构。结合小红书等企业的落地案例,展示该架构如何将 GPU 利用率大幅度提升,实现成本节约超 50%,为构建高吞吐、低延迟、可观测的生产级 Agent 基础设施提供最佳实践参考。

演讲提纲:
1. 背景:AI Agent 崛起带来的基础设施范式转移
1.1 负载特征质变:从“离散低频”的人类请求到“持续高频”的 Agent 协作(结构化请求、长上下文)。
1.2 核心痛点分析:
- 状态化需求:KVCache 从“临时缓存”变为“数字记忆体”的挑战。
- 资源效率瓶颈:单体 Pod 部署导致的 Prefill/Decode 资源错配。
- 弹性滞后:分钟级弹性无法满足秒级扩缩容需求。
2. 架构设计:AI Serving Stack 核心解密
2.1 编排层(RBG):
- 引入 RoleBasedGroup:将单体 Deployment 拆解为拓扑化的角色有机体。
- SCOPE 五大能力:实现 Router、Prefill、Decode 的协同调度与原子化管理。
2.2 路由层(SMG):
- 从轮询到智能:实现基于 KVCache 命中率、PD 分离感知的差异化调度策略。
- 优先级队列与过载保护:保障不同 SLO 任务的稳定性。
3. 存储与计算层(Mooncake & SGLang):
- 以 KVCache 为中心的 PD 分离架构。
- Transfer Engine 与池化共享:跨实例、跨节点的零拷贝数据传输与复用。
3. 生产实践与收益
3.1 落地案例:Qwen 大模型在小红书 PD 分离架构下的部署实战。
3.2 工程实践:从架构到指标
- 小红书案例:分钟级模型运维、50%+成本节省、发布失败率降至5%
- Qwen3-235B性能数据:PD分离下2.74 QPS、P99延迟<80ms、GPU利用率70%
- 弹性效率:秒级扩缩容、潮汐混部、一键部署<5分钟
4. 未来展望与开源生态
4.1 全栈开源与多框架兼容性(vLLM, TensorRT-LLM)。
4.2 从“经验驱动”到“数据驱动”的自动配置优化。

听众收益:
洞察趋势:深入理解 AI Agent 时代大模型推理面临的“规模经济”向“效率经济”转型的底层逻辑。
掌握架构:学习业界领先的 PD 分离(Prefill-Decode Separation)与 KVCache 分离架构的设计原理与实现细节。
落地指南:获得一套经过生产环境验证的、全栈开源的 Kubernetes 推理编排方案(AI Serving Stack),了解如何解决资源利用率低和弹性伸缩慢的实际难题。
开源方案:全面了解AI Serving Stack全栈开源技术生态,获取零商业锁定的生产级落地路径与CNCF标准化演进方向
避坑经验:借鉴大规模分布式推理场景下的运维经验,包括故障协同自愈、配置自动化及全链路可观测性建设。
阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化项目,并推动RBG(RoleBasedGroup)项目成为SGLang社区云原生编排项目,使能云原生AI从理论创新到千卡推理场景的规模落地。

百万 Agent 时代的原生记忆体与数据基础设施
刘 松
TiDB 副总裁
内容简介:
分析面向Agent 爆发对数据基础设施的核心挑战,阐述TiDB 以All-In-One DB 作为基础,如何通过创新的产品设计,支撑 百万Agent需求下的长短期记忆存取,记忆共享、权限管理,多模态数据融合与实时检索等等课题命题,支持企业级Agent 的统一构建与运行。        

演讲提纲:
1. 百万Agent 时代的数据挑战
2. 面向 Agent 的记忆体与数据基础设施架构设计
3. TiDB Agent 方向的实践案例

听众收益:
1. 理解百万Agent 需求下的前瞻架构
2. 获得面向Agent 记忆与数据基础设施的可落地方案              
在数据库、AI基础设施及企业级软件领域拥有超过20 年的深厚经验。作为开源分布式数据库 TiDB 的战略推动者,深度参与了从中国市场拓展到全球商业化落地的全过程,对大规模数据系统的挑战与机遇有深刻洞察。近年来,专注于AI原生基础设施的演进,致力于探索分布式数据库如何成为支撑下一代智能应用(如AI Agent)的数据基础设施。分享兼具技术深度与战略高度,能够为听众带来从架构演进到工程实践的全景视角。
AI-Infra全链路性能分析和优化实战
孙禹峰
阿里云 技术专家
内容简介:
从训推业务及Infra痛点入手,聚焦大模型训推全链路性能分析、瓶颈定位与优化的体系和能力。结合多行业云上真实案例,分享从数据侧到计算侧再到通信侧的常见优化方法。以期实现算力效能的最大化释放,为技术团队提供一套可复制的性能分析、定位及优化的方法论,在大幅压缩训练推理成本的同时,确立高吞吐、低延迟的生产级稳定性标准。        

演讲提纲:
1. 背景与挑战:大模型时代的训推性能问题痛点
大模型时代的训推性能问题痛点
对技术服务团队的要求
2. 核心方法论:全链路性能分析体系与瓶颈定位
性能指标体系简介
基于业务场景的分析体系OK
性能瓶颈定位和工具应用
3. 核心方法论:全链路性能优化方法
训推场景的架构优化
差异化场景与分层落地策略
4. 实战攻坚:基于业务场景的深度优化案例
推理场景加速优化实践行业案例
训练场景加速优化实践行业案例
5. 前景与展望

听众收益:
1. 掌握全链路性能分析方法论,精准定位数据、计算、通信瓶颈,提升算力效能与系统稳定性。
2. 借鉴多行业实战案例,学会低成本优化策略,构建高吞吐、低延迟的生产级AI系统。      

现任阿里云公共云技术服务支持专家,8年AI领域实践经验,聚焦于训推框架及AI Infra相关技术,具有多行业云上客户业务的全链路性能分析和优化场景落地的能力。
高效时序预测:从数值序列到事件文本
邓锦亮
北京航空航天大学 准聘教授
内容简介:
时间序列预测广泛应用于金融、城市运行和国防安全等场景,并常用于实时监测、风险预警和决策支持,因此预测效率具有重要意义。在开放环境下,时间序列不仅依赖历史观测序列,还会受到外部事件持续影响。现有方法通常利用深度模型建模历史序列,并借助大语言模型理解事件文本,但往往在高维表示空间中直接建模复杂信息,计算成本较高。本报告从预测效率的角度出发,分别针对历史序列与事件语义中的冗余结构提出高效建模方法:通过相位编码与原型模式学习压缩数值模式,并通过态势限定空间推理提取预测相关语义信号,从而在保持预测性能的同时显著降低模型规模和训练成本。        

演讲提纲:
1. 背景与痛点:高维建模导致效率瓶颈
诉求:在金融、安全等实时决策场景中,预测效率是模型能否落地的关键。
痛点:现实时序受政策、突发事件等外部影响。现有主流方法依赖大模型在“高维空间”建模,导致参数庞大、推理开销极重。
2. 核心破局点:挖掘数据的“低维结构”
放弃盲目追求更大、更复杂的模型。
转而从历史序列和事件文本两类复杂数据中,提取真正决定未来演化的“低维特征”。
3. 两条互补的技术路线与成效
针对历史序列(数值模式压缩):利用相位编码与原型模式学习来概括重复模式。在保持性能的前提下,大幅压缩约99%的模型参数。
针对事件信息(语义信号提取):通过“态势限定空间推理”,过滤冗余文本,只聚焦上升、下降等少量核心态势。在不牺牲效果的前提下,降低约50%的训练成本。
4. 总结升华:双线合一的高效预测
“数值模式压缩”与“语义信号提取”并非孤立路线,而是面向同一目标的互补思路。两者共同实现了从“高维复杂建模”向“紧凑高效预测”的成功转变。
 
听众收益:
1. 理解开放环境下时间序列预测的新挑战。了解在现实应用中,时间序列不仅由历史观测决定,还会受到外部事件持续影响,从而需要同时建模数值模式与事件语义信息。
2. 掌握提升预测效率的建模思路。通过挖掘数据中的低维结构,提高时间序列预测效率,包括基于相位编码与原型模式学习的数值模式压缩方法,以及基于态势限定空间的事件语义推理方法。
北京航空航天大学计算机学院准聘教授,主持国家高层次海外青年人才项目。2024年于悉尼科技大学澳大利亚人工智能研究中心获博士学位,2024年至2025年于香港科技大学任博士后研究员。主要研究领域包括时空数据挖掘、时间序列分析和城市计算等,研究成果在TKDE、NeurIPS、ICLR、ICDE、KDD等国际会议与期刊发表论文30余篇。
通义多模态、多端GUI智能体Mobile-Agent
徐海洋
阿里巴巴 通义实验室高级算法专家
内容简介:
随着多模态大模型和AI agent技术的快速发展,围绕Mobile、PC等端侧构建多模态GUI智能体,以进行自动化操作,成为了现在业界最热的研究应用方向之一,有望变革新的人机交互方式。我们围绕多智能体架构、复杂任务拆解、自主进化推理、GUI基础模型等技术构建整个通义多模态、多端智能体Mobile-Agent技术体系,包括多模态GUI智能体框架体系Mobile-Agent/Mobile-Agent-V2/Mobile-Agent-E、基础GUI智能体模型Mobile-Agent-v3/Mobile-Agent-v3.5等,通过仿真环境数据Scaling,Environment RL Scaling,体系化提升Agent能力等,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。Mobile-Agent工作也发表在NeuIPS 2024,并获得CCL2024、2025 Best Demo,相关代码均已开源到Github (https://github.com/X-PLUG/MobileAgent)        

演讲提纲:
1. 大模型智能体背景介绍,包括GUI、Deepresearch,OpenClaw/Manus等;
2. 通义多模态、多端GUI智能体框架Mobile-Agent,包括多模态单智能体Mobile-Agent、多智能体Mobile-Agent-v2、多模态自主进化智能体Mobile-Agent-E;
3. 通义GUI Foundation Model GUI-Owl/GUI-Owl-1.5,通过仿真环境数据Scaling和真实环境配合,Environment RL Scaling支持多端训练,体系化提升GUI Agent的Long/Short Memory、Tool-Use、Multi-Agent适配能力等;
4. 通义Mobile-Agent开源应用,和OpenClaw配合使用,探索相关技术在手机、电脑桌面端、车机等多个场景的应用。

听众收益:  
1. 体系化了解大模型GUI智能体;
2. 详细了解多模态GUI智能体Mobile-Agent框架体系;
3. GUI Foundation Model GUI-Owl/GUI-Owl-1.5。

阿里通义实验室高级算法专家,负责通义Mobile-Agent、mPLUG等系列工作,包括多模态智能体Mobile-Agent、多模态大模型mPLUG/mPLUG-Owl/QwenVL,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025两年 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer,主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA等。
京ICP备2020039808号-4 京公网安备11011202100922号