多智能体协同架构设计与实现

本论坛将聚焦多智能体协同决策与具身智能在前沿人工智能领域的创新实践,深入探讨多智能体系统如何通过大模型赋能,在复杂场景中实现自主协作与智能进化。同时,论坛也将关注具身智能在机器人交互、行为决策以及与人类社会深度融合等方面的最新研究成果。    
出品人:王仕亿
英国曼彻斯特大学电子电气工程博士学位,研究方向为集群系统和AI强化学习。旅居欧洲15年,从事多年智能制造、建筑智能、人工智能工程师和科研工作。目前为上海交通大学和普元信息联合博士后工作站在站博士后,从事AI架构研究。主要从事AI算法、架构、智能体设计,参加多项国家AI标准制定以及国家AI相关课题研究。同时兼任普元信息Al科学家工作,负责公司AI架构和智能体设计。其他社会职务,包括:IEEEAI系列标准编委会专家、国家信通院A系列标准编委会专家、百度文心开源服务站专家。
普元信息AI科学家
Agentic Skill 在阿里云 ECS 大规模诊断中的实践与落地
胡 兵
阿里云 技术专家
内容简介:
传统的云资源诊断依赖规则引擎和专家脚本,但在面对阿里云ECS海量实例、复杂故障场景时,往往显得僵化且维护成本高昂。本演讲将揭秘阿里云内部如何利用 Agentic Skill(代理技能) 架构,将LLM的推理能力转化为确定性的运维动作,实现从“被动报警”到“自主侦探与治愈”的范式转变,分享在大规模高并发场景下的工程挑战与落地经验。        

演讲提纲:
1. 背景与挑战 —— 当规则引擎撞上“规模墙”
2. 核心架构 —— 构建 ECS 的“全科医生”
3. 落地场景 —— 那些 AI 解决的“疑难杂症”
4. 工程化挑战 —— 从 Demo 到 Production
5. 成效与展望        

听众收益:
架构认知: 掌握 LLM Agent 在基础设施运维领域的落地架构设计。
实战经验: 了解如何构建高可用、低幻觉的“诊断技能库”(Skill Set),解决复杂场景(如系统宕机、网络抖动)的归因难题。
工程避坑: 获取在大规模场景下控制 Agent 成本、保障执行安全(Safety)及提升响应速度的工程化方案。
未来视野: 洞察从自动化(Automation)向自主化(Autonomy)演进的SRE新趋势。


自主进化智能体:从固定工作流到动态架构的演进
张 驰
西湖大学博导 AGI实验室负责人
内容简介:
本次演讲将深入剖析多个前沿应用场景,系统性地展现自主进化智能体从刚性工作流向动态自适应架构的范式跨越。通过对 GUI 智能体、医疗智能体以及数据库智能体等典型应用案例的介绍与分析,我们将共同见证智能体在工作范式、记忆广度与上下文理解深度上的全方位进化。这些案例不仅清晰地勾勒出智能体从单纯的效率工具向具备自我迭代能力的智能实体转变的演进脉络,更深刻探讨了这种演化在应对现实世界复杂不确定性时的关键意义,旨在为构建具备生命感的自主智能系统提供全新的理论视野与实践参考。

演讲提纲:
1. 自主进化智能体的背景与核心挑战
痛点:传统 Agent 依赖预定义(Hard-coded)的刚性工作流,面对复杂、模糊且多变的环境时极易失效。
契机:大模型能力的涌现为 Agent 提供了从“指令执行”向“策略自演进”跨越的可能。
2. GUI 智能体:从表层交互到深度逻辑进化
感知进化:实现对 App 业务逻辑的深度理解,而非仅停留在 UI 控件的像素级识别。
效能进化:通过对执行空间的动态探索与策略修剪,实现操作路径的最优化与执行效率的指数级提升。
3. 数据库 Agent:针对底层特性的特化演进
领域适配:针对数据库的 Schema 结构、索引特性及查询优化器进行深度的针对性进化。
闭环优化:基于执行反馈不断自我修正调度策略,实现从通用对话到专业数据库专家的角色转变。
4. 架构演进:从零构建高效智能体实体
自发生长:探索 Agent 架构如何从基础组件出发,通过环境交互自动迭代出最适合任务的协同拓扑。
动态重构:打破固定的模块堆砌,实现记忆机制、上下文调度与推理逻辑在任务过程中的实时自我重组。
5. 结语:迈向具备生命感的自主智能系统
总结:从固定工作流向动态架构的演进,是智能体具备应对现实世界不确定性的关键。
展望:探讨这种自我迭代能力对于构建真正意义上的“数字生命”的深远意义。

听众收益:
1. 了解最新Agent研究思想
2. Agent进化的应用案例        
现任西湖大学特聘研究员,博士生导师,并担任通用人工智能(AGI)实验室负责人。在加入西湖大学前,曾入选腾讯“技术大咖”头部人才计划担任高级研究员。 他长期深耕生成式AI与多模态大模型研究,在CVPR、TPAMI等国际顶尖会议及期刊发表论文60余篇,并连续入选斯坦福大学“全球前2%顶尖科学家”榜单。张驰博士致力于产学研的深度融合,其主导研发的生成式模型曾支撑腾讯QQ核心业务,服务上亿用户。同时,他积极构建开源生态,主导的AppAgent、MeshAnything、Metric 3D等知名开源项目在GitHub累计获星超20,000,被工业界与学术界广泛采纳为行业基准。
通义多模态、多端GUI智能体Mobile-Agent
徐海洋
阿里巴巴 通义实验室高级算法专家
内容简介:
随着多模态大模型和AI agent技术的快速发展,围绕Mobile、PC等端侧构建多模态GUI智能体,以进行自动化操作,成为了现在业界最热的研究应用方向之一,有望变革新的人机交互方式。我们围绕多智能体架构、复杂任务拆解、自主进化推理、GUI基础模型等技术构建整个通义多模态、多端智能体Mobile-Agent技术体系,包括多模态单智能体Mobile-Agent、多模态多智能体Mobile-Agent-V2、自主进化多模态智能体Mobile-Agent-E、基础GUI智能体Mobile-Agent-v3、Mobile-Agent-v3.5等,并探索相关技术在手机、车机等多个场景的应用。Mobile-Agent工作也发表在NeuIPS 2024,并获得CCL2024、2025 Best Demo,相关代码均已开源到Github (https://github.com/X-PLUG/MobileAgent)。       

演讲提纲:
1. 大模型智能体背景介绍
2. 通义多模态、多端GUI智能体Mobile-Agent
3. 通义GUI Foundation Model GUI-Owl
4. 通义Mobile-Agent开源应用

听众收益:
1.体系化了解大模型GUI智能体
2.详细了解通义Mobile-Agent系列工作,以及GUI Foundation Model GUI-Owl        

阿里通义实验室高级算法专家,负责通义Mobile-Agent、mPLUG等系列工作,包括多模态智能体Mobile-Agent、多模态大模型mPLUG/mPLUG-Owl/QwenVL,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025两年 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer,主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA等。
京ICP备2020039808号-4 京公网安备11011202100922号