出品人:何万青
清程极智 合伙人VP
前英特尔首席工程师、阿里云高性能计算负责人

此前曾任英特尔首席工程师,阿里巴巴资深技术专家,阿里云高性能计算负责人,并在燧原科技、华为、360云、英特尔,摩托罗拉、国电技术担任研发负责人和创业公司 CTO。先后专注于手机 DSP 软件开发(摩托罗拉),高性能计算性能优化 & 异构计算 & 并行存储(英特尔),阿里云超算产品研发与业务。热心产学研合作,先后担任中国计算机学会 CCF YOCSEF 总部副主席,高专委执委,总部荣誉委员,近年作为青工委副主任负责 CCF YEF、CNCC 等年度会议组织工作,阿里云全球科技抗疫领导者。有公众号「四维碎片」。   

Al前沿技术探索与实践

本论坛探讨自下而上的大模型前沿技术,内容覆盖大模型算力底座运营、AI应用性能特征分析、大模型推理全栈优化、新型大模型架构、数字人中台实现与优化等。从前沿技术角度切入,分别对算力层、系统层、模型层、应用层等进行专业分析,形成金字塔型有机整体,听众可从中对LLM软硬件全栈技术有一个纵贯融合的学习。   
基于用户视角的算力服务和算力网选型服务
陈 健
并行科技 董事长 
内容简介:
算力网模式通过专业选型能力,从众多供应商中挑选最适合的算力产品或服务。首先,确认业务需求,了解运行边界条件和效率评判标准。接着,分析应用运行特征,识别业务特点和资源依赖程度。然后,利用ParaSelect方法评估不同算力型号的性能表现,输出资源选型方案。最终,基于成本与性能信息,选择最优方案,确保最高性价比和性能。这一模式帮助用户获得最适合的算力服务。   

演讲提纲:     
1.并行算力网
2.精准作出技术选型和性能预测
3.ParaSelect资源选型,提供最优方案,确保高性价比和性能
4.大模型应用特征分析/选型/优化与案例

听众收益:
1.如何帮助你获得高性价比的算力服务
2.如何让你的业务需求与算力服务完美匹配
3.如何让你的算力选型更加专业和精准
4.如何让你的算力投资更具回报价值
博士,北京并行科技股份有限公司(BJ839493)董事长,CCF中国计算机学会副理事长,CCF高专委常委,CCF人工智能专委执委,CCF YOCSEF主席(2019-2020),TEEC清华企业家协会北京分会副主席,清华航院校友会常务副会长。
1993-2002年于清华大学获流体力学学士和博士学位,期间在荷兰TUDelft访问学者一年;
2016-2021年为清华五道口金融学院GFD全球金融博士生、日内瓦大学财富管理博士生;
2002-2005年,任联想集团高性能服务器事业部方案处经理、副主任工程师;
2005-2010年,任英特尔中国高性能计算架构师、资深性能优化工程师;2010年起,历任并行科技CTO、CEO、董事长;
2011年作为创始合伙人,与中国科学院计算机网络信息中心、北京市怀柔区政府共同筹建北京超级云计算中心,2020年北京超级云计算中心A分区荣登中国超算Top100排行榜第三名,紧随先后登顶世界第一的天河二号和太湖之光之后,助力中国科研和科技发展,截止2023年连续四年蝉联中国超算通用CPU算力第一。2023年北京超级云计算中心成为北京市通用人工智能产业创新伙伴计划成员名单(第一批)唯二算力伙伴之一。
新型RNN大模型架构
罗 璇
RWKV Co-founder & COO 
内容简介:
针对Transformer的二次方计算复杂度问题,新一代的RNN大模型架(RWKV/Mamba/Titans等)构通过创新设计优化,可以高效的并行训练,在降低计算复杂度的同时维持全局建模能力。这类架构支持超长序列处理,在语言、多模态、多智能体、具身智能、时序预测、蛋白质生成等领域表现卓越,兼顾高效性与表达能力,为处理复杂时空数据提供新范式,推动大模型进入下一个阶段。                            
元始智能(RWKV)联合创始人兼COO,RWKV开源基金会成员,AGI-X社群创始人。曾创立机器人公司Syrius Robotics,曾担任阿里巴巴AI Lab产品总监,曾在腾讯和猎豹移动担任核心产品负责人。
大模型推理引擎加速技术
翟季冬
清华大学 教授/清程极智 首席科学家 
内容简介:
大模型赋能千行百业,其推理系统作为支撑引擎,面临着推理成本高的挑战。本报告将从内存管理、编译优化、模型量化和并行策略四个关键维度,深入剖析大模型推理系统加速技术。本报告将探讨高效的内存管理方法、编译优化、模型压缩与量化,以及并行推理策略,并分享实验室在这些方向的最新研究进展,为构建高效、低成本的大模型推理系统提供思路与参考。

演讲提纲:
1.研究背景与关键技术
1.1新一代人工智能的发展趋势
1.2大模型推理面临的主要挑战
1.3大模型推理系统的关键技术
2.算子优化
2.1大规模推理系统与算子实现
2.2FlashTensor:基于张量属性的细粒度图层优化系统
3.内存管理
3.1内存对大模型推理的重要性
3.3Jenga:异构大模型内存管理系统
4.模型量化
4.1模型量化的意义
4.2当前主流量化方法
4.3MIXQ:高性能混合精度推理系统
5.异构调度
5.1大模型推理负载的异构性
5.2FastDecode:高吞吐大模型推理系统
5.3稀疏模型:将 MoE 模块卸载至 CPU
5.4异构调度核心:根据算数密度调度到合适硬件
6.并行优化
6.1并行优化的意义
6.2大模型推理的动态并行策略调优
6.3大模型推理引擎–赤兔
6.4赤兔推理引擎:国产芯片支持
7.实验室相关研究
8.总结

听众收益: 
1. 大模型推理前沿工作介绍
2. 国产化适配面临的挑战和机遇
3. 新一代人工智能发展方向探索

清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十五次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划,大川基金。
云原生平台下大语言模型PD分离架构的规模化挑战和实践
顾 静
阿里云 高级研发工程师 
内容简介:
采用PD推理架构部署LLM推理服务可以有效的保证服务的SLO,并提升推理效率。开源社区主流推理引擎如vLLM+LMCache、SGLang+Mooncake、Dynamo等都已经支持PD分离部署。但是如何在Kubernetes上快速统一地部署这些PD分离的方案以及如何评估这些方案在性能和成本上的收益充满了挑战。
在本次分享中,我们将会介绍PD分离原理及如何使用RoleBasedGropu(RBG)作为工作负载,在Kubernetes集群中快速部署Dynamo、vLLM及SGLang PD分离推理;并且通过Envoy结合ORCA根据KVCache和队列等待时间进行负载均衡。最后,通过压测工具对PD分离架构进行评估,并结合弹性扩缩容策略动态控制PD分离配比,获取最佳收益。
  
演讲提纲:
1. LLM 推理核心原理与 PD 分离技术本质
1.1 LLM 推理核心原理
1.2 PD 分离(Prefill-Decode Disaggregated)技术
2. 开源推理引擎的 PD 分离实践方案
2.1 vLLM:vLLM + LMCache实现PD分离
2.2 SGLang:SGLang + Mooncake实现PD分离
2.3 Dynamo:Dynamo + NIXL实现PD分离
3. RoleBasedGroup(RBG)工作负载深度解析
4. 基于 RBG 的大规模 PD 分离部署实践
5. 结合Gateway Inference Extension实现KVCache Aware的路由策略,提升多轮会话场景下的推理效率
6. 基于TTFT/TPOT等SLO指标实现弹性扩缩容,动态调整PD分离比例

听众收益:
1.了解LLM推理及PD分离基本概念
2.了解主流的LLM推理引擎如何实现PD分离
3.了解如何在K8s中大规模服务化部署及管理PD分离架构

阿里云高级研发工程师,来自阿里云容器服务团队。主要负责在Kubernetes中为LLM推理服务提供产品化部署能力,降低部署复杂度,提升LLM推理效率。具有多种LLM推理框架的部署及优化经验。
AI驱动下新交互生态—中间件LinkMind+数字人
戴冠平
北京缔智元 首席科学顾问 
内容简介:
本次以AI大模型伴随的新一代人机交互重要载体的数字人为例,以AI应用融合技术枢纽的中间件来穿透,内容覆盖大模型应用项目落地全生产周期的完整技术实践,尤其针对其中普遍存在的大模型幻觉、高并发衰减、多模态对齐、私有语料融合、动态路由与安全等真实场景技术挑战,结合Agentic AI,重点讲解Rag/Embedding/Medusa/Graph/Airank等核心技术开发。       

演讲提纲: 
1. AI大模型开启的新一代人机交互机会
1.1 人机交互演进历史回顾
1.2. 数字人AI原生态交互模式
1.3 当前行业现状、瓶颈与破局
2. AI大模型应用融合技术发展
2.1 交互生态的多维协同体系深度解析
2.2 AI融合技术的“神经中枢”中间件
2.3 Agentic AI 的认知升级与协作优化
2.4 热点前沿MCP、A2A技术及其他
3. AI大模型应用落地实践与挑战
3.1 大模型落地应用项目的生产周期
3.2 产前私有语料融合的信息密度冲突
3.3 产前模型幻觉与准确度的矛盾调节
3.4 产中并发场景下性能的高衰减挑战
3.5 产后的调度路由、安全与模态对齐
3.6 协同应用集成案例及其开发者价值

听众收益:
1. 开发框架效率的指数级提升
2. 系统可靠性的工程级保障
3. 行业落地技术能力的前沿升级

本科、研究生毕业于清华大学,拥有本校汽车工程系/计算机科学系双学位,先后任职于中国科学院软件研究所、BEA/Oracle(中国),自清华研究生课题开始,不断从事AI领域理论研究与实践,坚持在人工智能领域进行基础性研发二十余年,长期开展在多个模态上数据对齐、融合与智能学习、着手大模型、中间件、数字人的研究与应用落地多年,拥有相对丰富的实践经验。
京ICP备2020039808号-4 京公网安备11011202100922号