出品人:何万青
此前曾任英特尔首席工程师,阿里巴巴资深技术专家,阿里云高性能计算负责人,并在燧原科技、华为、360云、英特尔,摩托罗拉、国电技术担任研发负责人和创业公司 CTO。先后专注于手机 DSP 软件开发(摩托罗拉),高性能计算性能优化 & 异构计算 & 并行存储(英特尔),阿里云超算产品研发与业务。热心产学研合作,先后担任中国计算机学会 CCF YOCSEF 总部副主席,高专委执委,总部荣誉委员,近年作为青工委副主任负责 CCF YEF、CNCC 等年度会议组织工作,阿里云全球科技抗疫领导者。有公众号「四维碎片」。  
清程极智 合伙人VP
前英特尔首席工程师、阿里云高性能计算负责人

大模型训推优化

聚焦大模型从底层硬件与模型协同优化,到模型上层推理优化、部署优化等全栈技术链路,剖析和展望大模型技术栈演进方向,深入探讨以下关键技术范畴:推理引擎核心优化(含算子设计、内存调度、量化策略),高效微调技术实践(轻量化微调方案、业务数据适配),部署服务性能调优(推理加速、资源适配、动态调度)等,更好地把握下一代大模型技术前沿方向。
PD分离架构:从大规模到小规模场景的普惠实践
车 漾
阿里云 容器服务高级技术专家
内容简介:
PD分离架构在Deepseek的实践证明大规模部署下,可以显著提升LLM推理吞吐并且保障SLO。但是对于比如小规模部署是否可以得到同样的效果,却并没有达成共识。在本次分享中,我们统一评估vLLM/Dynamo/SGLang等开源PD分离小规模部署(H20双机16卡规模),得到在满⾜SLO指标(TTFT 1s,TPOT 50ms)条件下,实测吞吐性能得到明显收益。也就是PD分离架构,并非王谢堂前燕,可以飞入寻常百姓家。但是依然有明确的挑战:
1. PD分离比例设定:如何结合自身的业务场景,输入输出需求,定义合理的PD分离初始值
2. 基于Kubernetes以统一的方式高性能部署:如何使用RoleBasedGroup API(RBG)作为工作负载,在Kubernetes集群中快速部署Dynamo、vLLM及SGLang PD分离推理,结合机内拓扑结构设置 GPU 和⽹卡的亲和性关系调度,实现性能的最大化化,结合通过Envoy结合Open Request Cost Aggregation (ORCA)根据KVCache和队列等待时间进行负载均衡。
3. 生产环境的服务化治理:无损的滚动升级,避免KVCache误删导致的大量重算和丰富自动的故障恢复策略。
4. 弹性伸缩:根据监控和事件驱动的机制动态调整PD的数量满足SLO的需求。
揭秘PD分离在不同规模场景下的最佳实践路径。        

演讲提纲:
1.背景介绍
1.1LLM推理的需求与挑战
1.2PD分离技术介绍
1.3大规模部署中的PD分离架构优势
-提升推理吞吐量
-保证SLO(TTFT 1s,TPOT 50ms)
2.小规模部署的探索与评估
2.1评估方法
-使用H20双机16卡进行测试
-应用vLLM、Dynamo、SGLang等开源工具
2.2实测结果
-吞吐性能的提升
-满足SLO指标的条件下的收益
3.关键技术挑战与解决方案
3.1PD分离比例设定
-以SGLang+Mooncake为例分析如何根据业务场景调整初始值
3.2高性能部署
-开源方案RoleBasedGroup API(RBG)的架构和应用
-RoleBasedGroup API(RBG)工作负载管理的优势
-Envoy与ORCA的负载均衡策略
-基于拓扑感知的资源调度优化
3.3服务化治理
-无损滚动升级的实现
-自动恢复的场景和实现
3.4弹性伸缩的实现
-基于TTFT/TPOT等SLO指标
-动态调整PD分离比例的方法
-实现弹性扩缩容的技术细节        

听众收益:
1. 颠覆规模认知,提供普惠级优化
1.1提供 “小规模PD分离效能公式” 与 16卡拓扑优化方案,突破小规模部署无需PD分离的认知
1.2掌握在中小集群(≤50卡)实现 吞吐提升的实证方法
2. 获得基于开源的生产级架构蓝图
2.1复用 RBG工作负载+Envoy/ORCA智能路由 标准化部署框架,降低运维复杂度
2.2避免过度复杂设计
3. 构建持续进化能力
3.1学会快速适配vLLM/Dynamo等新引擎
3.2并且掌握大模型生产运维的知识和经验
作为阿里云高级技术专家及CNCF Fluid项目联合发起人,拥有深厚的云原生AI基础设施经验,他聚焦解决AIGC工程化核心瓶颈:通过创新数据编排技术(如Fluid分布式缓存框架)实现模型加载加速与存储成本降低,技术演进覆盖从容器化深度学习到LLM多云架构优化,在KubeCon、QCon、AIDD等顶级会议中持续输出生产级实践,主导的Fluid项目成为CNCF孵化标准,推动云原生AI从理论创新到千卡推理场景的规模落地。
国产算力超节点的大模型推理部署实践
汤雄超
清程极智 CEO
内容简介:
清程极智是专业的智能算力系统服务商,致力于通过高效、易用的智能算力系统软件,提升算力使用效率、降低大模型落地成本,为国产算力赋能,助力人工智能产业发展。
清程极智在支持国产智能算力的系统软件方面具备多项核心能力,掌握并行系统、计算框架、通信库、算子库、AI编译器、编程语言、调度系统、存储系统、内存管理、容错系统等10个关键基础软件的核心技术,其中过半数具备完整的自主研发能力,解决方案满足大模型部署的全栈技术要求。
清程极智致力于通过系统软件创新,完善国产芯片的软件生态,消除底层算力差异,持续向人工智能行业贡献算力充沛、功能完备、性能极致的智能算力解决方案,助力中国人工智能基础设施建设,促进中国人工智能的全面发展。

演讲提纲:
1.智能算力发展趋势与国产算力超节点现状
2.大模型推理部署的主要挑战
3.面向超节点的大模型推理技术创新
4.大模型推理的未来发展探讨        

听众收益:
1. 了解国产算力发展动向
2. 了解大模型推理前沿技术
3. 了解智能计算技术未来发展趋势        

本科和博士均毕业于清华大学计算机科学与技术系。博士期间的研究领域集中在并行计算的性能分析和性能优化方面,包括针对超大规模和超小规模算力系统的计算加速技术,基于编译器技术和低开销运行时监控技术的性能瓶颈定位和性能异常分析,高性能并行算法、任务调度策略、硬件加速器等。发表CCF-A类论文十余篇,已申请发明专利20余项。目前担任清程极智公司首席执行官。清程极智是人工智能基础设施领域的初创企业,致力于为多种人工智能芯片,尤其是国产芯片,提供灵活、高效的大模型训练和推理部署软件。
大模型训练和推理中的前沿优化技术
张闰清 博士
清华大学高性能所
内容简介:
这次演讲的主要内容包括大模型训练和推理中的基础概念、动机、方法、各种方法的优缺点和前沿优化技术。主要内容包括各类并行训练、推理中的各类并行方法以及他们的组合方法,如何适用于大规模集群等。此外,演讲还会选择近期内学术界较新的有关并行训练和并行推理的优化方法。        

演讲提纲:
1.并行训练和并行推理中的基础概念和基本方法
2.集群拓扑与并行方法的适配与调优
3.学术前沿的并行优化方法和手段        

听众收益:
1.对大模型训练和推理中的并行获得基本的了解
2.了解前沿的大模型并行优化方法      
清华大学计算机系高性能所博士生,导师为翟季冬教授。研究领域为大模型推理系统优化。
本科期间曾获得世界大学生超算竞赛ISC24现场赛总冠军。
基于大模型应用特征分析的算力适配与应用优化
宋志方
并行科技 应用优化总监
内容简介:
主要介绍:
1. 应用运行特征分析方法,通过Paramon/Paratune应用运行特征分析工具对应用进行CT扫描,深入刨析应用在不同算力平台上展示的应用运行特征,通过精准的数据分析对应用进行性能定位,为算力买手模式找到高性价比的算力提供数据支撑。
2. 算力买手模式和ParaSelect分析方法,运用应用运行特征分析数据经过科学的数据分析方法定位应用对不同算力配置的依赖程度,1小时出分析报告列出用户应用可选的高性价比TOP3的算力配置,完成4小时交付用户算力使用。
3. 典型应用分析案例,主要介绍运用应用运行特征分析方法对客户应用进行分析优化的典型案例。

演讲提纲:
1.DeepSeek 应用运行特征分析
1.1DeepSeek 测试技术要点总览
1.2DeepSeek PD分离部署的应用运行特征分析
1.3P阶段和D阶段的不同平台运行性价比
2.应用运行特征分析方法介绍
2.1应用优化方法概论
2.2应用分析的不同层级
2.3应用分析在不同层级所用到的工具
3.典型应用优化案例        

听众收益:
1.系统性的了解应用运行特征分析方法
2.了解应用运行特征数据对应用分析优化的作用        

深耕高性能计算与 AI 模型优化领域,兼具底层技术研发与产业落地经验,擅长通过软硬协同优化、并行架构设计及算法创新,解决大规模计算场景下的效率瓶颈与 AI 模型推理部署难题,参与优化过CFD、石油、电力等多款大型国产工业软件,主导了公司MaaS平台推理模型性能优化,大幅度提高了模型推理效率,为公司面向具身智能、AIGC、生物医药、工业仿真等领域的算力选型和7*24小时服务提供关键技术支撑。
京ICP备2020039808号-4 京公网安备11011202100922号