多模态、多端GUI智能体Mobile-Agent技术实践与应用
内容简介:
随着多模态大模型的快速发展,围绕Mobile、PC、车机等端侧构建多模态智能体,进行自动化操作成为了现在业界最热的研究应用方向。我们围绕多智能体架构(Mobile-Agent v1/v2/-e)到GUI基础Agent模型(Mobile-Agent-v3)构建整个多模态、多端智能体Mobile-Agent技术体系,Mobile-Agent工作CCL2024、2025连续两年Best Demo
演讲提纲:
1. 大模型智能体背景;
2. 多模态GUI智能体架构Mobile-Agent-v1/-v2/-e;
3. 多模态GUI基础智能体Mobile-Agent-v3;
4. Mobile-Agent系列开源应用。
听众收益:
1. 能够全面了解GUI智能体的发展;
2. 能够全面了解Mobile-Agent系列工作。
阿里通义实验室高级算法专家,负责通义多模态大模型Mobile-Agent、mPLUG系列工作,包括多模态智能体Mobile-Agent、PC-Agent,多模态大模型mPLUG/ mPLUG-Owl,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025连续两届 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA。