AiDD研发数字峰会

出品人：印鉴

中山大学人工智能学院二级教授、博士生导师，广东省大数据管理与应用工程技术研究中心主任。现为中国计算机学会数据库专业委员会委员、中国计算机学会大数据专家委员会委员、广东省计算机学会副理事长、广东省计算机学会大数据专业委员会主任。在包括IEEE Trans. 等国际著名期刊和KDD、AAAI、ACL、NeurIPS等国际会议上发表论文200多篇；主持了国家自然科学基金重点和面上项目等三十多个项目的研究工作，科研成果获广东省科技进步奖一等奖（排名第一）。入选教育部新世纪优秀人才，广东省特支计划杰出人才。近三年连续入选斯坦福大学发布的“全球前2%顶尖科学家榜单”。

中山大学人工智能学院副院长

多模态LLM训练与应用

多模态大型语言模型正引领技术革命，通过整合文本、图像、音频和视频等多源数据，实现更全面的感知与认知。本论坛聚焦跨模态对齐、融合架构和指令微调等技术，探讨如何构建统一表征框架，提升模型的泛化能力和鲁棒性。这些创新正推动通用智能向感知-认知一体化演进。在工业界，多模态LLM已广泛应用于智能客服、内容生成和工业质检，显著提高效率并降低成本。

多模态、多端GUI智能体Mobile-Agent技术实践与应用

徐海洋

阿里巴巴通义实验室高级算法专家

内容简介：

随着多模态大模型的快速发展，围绕Mobile、PC、车机等端侧构建多模态智能体，进行自动化操作成为了现在业界最热的研究应用方向。我们围绕多智能体架构（Mobile-Agent v1/v2/-e）到GUI基础Agent模型（Mobile-Agent-v3）构建整个多模态、多端智能体Mobile-Agent技术体系，Mobile-Agent工作CCL2024、2025连续两年Best Demo。

演讲提纲：
1. 大模型智能体背景；
2. 多模态GUI智能体架构Mobile-Agent-v1/-v2/-e；
3. 多模态GUI基础智能体Mobile-Agent-v3；
4. Mobile-Agent系列开源应用。

听众收益：
1. 能够全面了解GUI智能体的发展；
2. 能够全面了解Mobile-Agent系列工作。

阿里通义实验室高级算法专家，负责通义多模态大模型Mobile-Agent、mPLUG系列工作，包括多模态智能体Mobile-Agent、PC-Agent，多模态大模型mPLUG/ mPLUG-Owl，多模态文档大模型mPLUG-DocOwl等，其中 mPLUG 工作在 VQA 榜单首超人类的成绩，Mobile-Agent工作CCL2024、2025连续两届Best Demo，获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇，并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目Mobile-Agent，mPLUG，AliceMind，DELTA。

金融大模型的训练和业务应用探索

王小东

新希望金融科技 AI中心总经理

内容简介：

随着AI和大模型技术的发展，为催收、客服、交易侦测、电销等重人力投入的领域提供了更加智能化的解决方案。然而通用大模型存在幻觉高、不遵循SOP流程、专业问题回答不准、回复内容黑盒等问题。金融行业对面客内容的准确性、可解释性、合规性、安全性、专业性等要求较高，大模型垂直领域训练成为解决这些问题的重要方法。
本次演讲将介绍新希望金融科技AI团队研发的面向金融行业的专用大模型解决方案和应用实践，利用大量金融领域数据对大模型进行垂直训练和微调，让模型对客服类问答回复更准，对SOP遵循更高，进一步降低模型幻觉，提高可解释性。以语音外呼机器人为例，介绍金融大模型、小模型、声音克隆、端到端TTS、ASR等技术实现用户意图智能识别、回复内容精准生成、语音拟人化合成、专业的人机对话、坐席辅助、SOP遵循等功能，解决行业大模型助用于客服中的幻觉、合规、准确性、生成内容可不控等问题，将坐席的服务边界最大化，为用户提供智能化、安全化、24小时响应的运营能力，提升企业的服务水平，实现小投入，服务最大化的目标。

演讲提纲：
1.行业大模型的重要性
1.1 大模型在金融业的应用
1.2 通用大模型存在问题
1.3 行业大模型训练的重要性
2.金融大模型训练
2.1 金融行业高质量数据清洗
2.2 基座模型构建
2.3 模型训练
2.4 模型训练关键方法
2.5 模型评估
2.6 模型训练经验总结
3.基于金融大模型的语音机器人落地方案
3.1 技术架构
3.2 产品架构
3.3 大模型幻觉消除算法
3.4 语音智能对话和精准性生成算法
3.5 对话内容实时巡检算法
3.6 大模型通话总结技术
3.7 大小模型融合技术
3.8 语音机器人技术实现
3.9 语音机器人在催收/客服/交易侦测/电销等领域的应用案例
4.总结和展望
4.1 总结
4.2 未来研究计划

听众收益：
1. 了解大模型在垂直领域的训练经验，助力听众挖掘自身业务场景或者优化已有场景。
2. 掌握金融大模型助力语音机器人的技术方案、算法方案、工程方案，提供可落地的解决方案，介绍如何0-1搭建大模型语音机器人应用于金融这种对可靠性和准确性要求较高的场景。
3. 介绍金融大模型落地中的挑战与解决方案，提供可复用的实践经验参考。

曾就职于华为2012实验室和蚂蚁金服人工智能部，从事大数据和AI技术相关研究 11年左右。现就职于新希望金融科技，担任AI中心总经理，负责研发基于 AI 和大模型的创新型产品和新技术探索与突破以及风控算法研发，研发成果多次在未来银行大会进行发布。以第一作者申请发明专利30多项，发表论文近10篇。工作期间获华为2012实验室代码百强员工，新希望金融科技总裁特别奖，金熊猫高价值专利奖，成都市新经济领域人才，主持多项四川省科技厅重点项目和AI项目，获得多项科技成果等奖项。

基于大模型的情感智能关键技术及应用

余建兴

中山大学副教授

内容简介：

本报告围绕情感智能的关键技术及应用展开深入探讨，旨在突破传统情感智能在理解、生成和应用层面的瓶颈，为智能技术注入情感“温度”。

演讲提纲：
1.通过构建多模态情感数据融合与表征方法，将文本、语音、图像等多源信息整合，实现对情感更精准的建模
2.利用大模型的预训练与微调机制，结合情感知识图谱，提升情感理解的深度与泛化能力
3.创新设计可控情感生成算法，使模型能够根据不同场景和需求，生成富有情感色彩的内容
4.最后介绍其在AI+旅游领域的实践应用

听众收益：
听众将深入了解基于大模型的情感智能关键技术原理和应用方法，拓宽在人工智能和情感计算领域的知识面。
通过介绍技术创新点和应用案例，启发听众在自己的工作和研究中运用情感智能的思维，提出创新性的解决方案。

博士，中山大学副教授。广东省杰出青年项目获得者，CCF 杰出会员。主要方向为自然语言处理。

AiDD峰会

K+峰会

联系我们