出品人:黄胜鲁
中兴通讯敏捷高级教练,智家中心研发改进总工、中心教练组组长,支撑公司百亿级产品研发效能改进。
深耕管理域、工程域十余年,多次带领多个项目通过CMMI5认证,22年带领重点项目通过信通院DevopsL3认证。
中兴通讯 智家研发改进总工

大模型和AI应用评测

聚焦大模型能力、AI应用能力的测评,涵盖评测指标、评测数据集构建和评测方法等理念和深度赋能,通过大厂场景化落地的案例,围绕提升模型+Agent能力和AI智能水平,对评测集和评测平台的建设、评测方法的应用等进行实例化讲解。使听众快速掌握行业先进评测方法,明晰评测集建设、平台搭建的核心逻辑,通过真实案例直接借鉴相关评测经验和优秀实践,规避误区。
基于蜕变测试的大模型内容安全评估研究与实践
邢 颖
北京邮电大学 副教授、硕/博士生导师
内容简介:
本演讲聚焦于大模型内容安全评估,通过构建一个多语言基准,并基于蜕变关系生成变体数据集,对多个大模型进行评测,评估其在不同安全类别下的表现。该基准涵盖中文与英文两种语言,每种语言均覆盖四个安全领域九个安全类别,支持多维度的安全评测。之后,我们引入蜕变测试作为系统性评估方法。最后通过实验结果与工业场景应用的结果分析展示不同大模型在各类别下的安全表现差异,并验证蜕变测试在发现细微但关键的安全缺陷方面的有效性。

演讲提纲:
1.研究背景与意义
大语言模型已在众多应用场景中广泛部署,但其生成有害或敏感内容的风险仍可能引发严重的安全问题。评估此类风险,亟需高质量的基准数据集与有效的评估方法。
2.提出大模型内容安全分类框架
针对多种内容安全风险,提出一种两层结构的内容安全分类框架。
3.构建大模型内容安全评估基准
基于两层结构的内容安全分类框架,通过数据搜集、清洗等方法构建大模型内容安全评估基准,并对多个大模型开展评测。
4.引入蜕变关系增强内容安全评估基准
定义七种蜕变关系对评估基准的数据进行蜕变,形成七个新的数据集,并进一步对多个大模型进行评测,分析结果。
5.大模型评测结果分析
根据实验与工业场景的实际应用结果,综合评估常见大模型针对不同类别数据的处理能力、使用蜕变关系的效果、大模型参数等指标对数据处理的影响,并通过实例分析直观展示实验结果。

听众收益:   
1.了解大模型内容安全评估的分类框架,明确大模型内容安全所包含的具体类别。
2.掌握内容安全评估基准的构建流程,包括数据搜集、转换与标注等方法。
3.理解多种蜕变关系的定义及其在内容安全评估基准上的应用。

北京邮电大学副教授、硕/博士生导师,中国计算机学会(CCF)高级会员、软件工程专委会副秘书长,中国人工智能学会会员,国家自然科学基金同行评议专家。主要从事源代码分析、软件可靠性、人工智能应用的研究,先后主持国家自然科学基金、中国博士后科学基金、CCF绿盟“鲲鹏”科研基金等项目,并作为项目骨干参与了多个国家重点研发计划、国家自然科学基金和其他省部级项目。出版专著《源代码分析》、《面向对象软件工程》、《基于人工智能的测试用例自动生成与测试用例集优化》等。在《软件学报》、《中国科学:信息科学》、EAAI、JCST、JSS、IET Software、KBS及ChinaSoft等期刊和会议上发表论文数十篇,申请和授权专利数十个。
面向行业智能体评测的个性化、高拟真的评估新范式
张俊俊
蚂蚁集团 测试开发专家
内容简介:
随着大语言模型(LLM)驱动的智能体(Agent)在各行各业迅速落地,一个核心挑战日益凸显:如何在复杂的真实环境中,客观、高效地评估 Agent 的实际能力和用户体验?传统的单元测试和离线数据集已无法有效捕捉用户行为的多样性、任务目标的动态性以及多模态交互的复杂性。这导致 Agent 在上线后表现不敌预期,优化迭代缺乏明确依据。
为解决这一痛点,我们提出并构建了一套全新的评估范式——以 **Evaluation Agent**为核心的自动化评测体系。该体系将其作为“数字分身”,在可控的沙盒环境中,模拟真实用户与多种模态交互下的个性化行为,产生可量化的交互轨迹,并通过judge model进行自动化评分,从而实现对产品 Agent 更精准、系统化评测。

演讲提纲:
1. 评测的范式革新:从人工到自动化
1.1 传统评测方式的困境与挑战
1.1.1    人工评测的局限性
1.1.2    离线静态评测的不足
1.2 自动化评测的必要性与价值
1.2.1    业务需求驱动
1.2.2    技术可行性分析
1.3 Evaluation Agent范式的核心理念
1.3.1    数字分身概念:用AI模拟真实用户行为
1.3.2    沙盒环境:提供可控、可重复的测试环境
1.3.3    全链路评测:从交互到结果的端到端评估
1.3.4    数据驱动:基于量化指标的客观评价
2. Evaluation Agent的四大核心支柱
2.1 Persona Modeling(用户画像建模)
2.1.1    多维度用户特征建模
2.1.2    个性化行为生成策略
2.1.3    Persona库的构建与管理
2.2 Multi-modality Integration(多模态集成)
2.2.1    文本模态处理
2.2.2    语音模态支持
2.2.3    视觉模态评估
2.3 Judge Model(评判模型)
2.3.1    评分标准的设计原则
2.3.2    自动化评分机制
2.3.3    评分一致性保障
2.3.4    持续优化机制
2.4 Sandbox Environment(沙盒环境)
2.4.1    环境隔离与安全性
2.4.2    真实环境模拟
2.4.3    可观测性设计
3. 从评测到迭代:构建高效的评测闭环
3.1 评测流程的标准化设计
3.2 数据驱动的问题发现
3.3 迭代优化的闭环机制

听众收益:
1.评测新思路与系统化方法: 掌握一套构建 Evaluation Agent 评测体系的完整方法论,为您的 Agent 产品提供一套系统化的质量保障方案。
2.核心技术分享: 深入理解 Sandbox、Persona、Multi-modality 和 Judge Model 这四大核心模块的功能与构建要点,并能将拓展至自己的项目中。
3.量化评估与迭代闭环: 学习如何通过评测轨迹数据,建立一套可量化的评估指标,形成从发现问题到验证效果的高效迭代闭环。
4.实战经验与踩坑分享: 获得宝贵的实战经验和常见问题解决方案,避免在构建评测体系时走弯路。

蚂蚁集团支付宝技术部测试开发专家,担任过多个行业重大项目的质量保障1号位(出行酒旅、医疗健康管家等)。目前负责行业智能体评测工作,专注于行业智能体算法评测领域的技术创新攻坚。
场景驱动的三层评测体系
蔡李生
中兴通讯 有线研究院AI技术教练
内容简介:
大模型时代,如何保障AI应用从知识、模型到应用的全链路质量与可持续性?我们借鉴TDD思想,创新性构建了场景驱动的三层自动化评测体系。该体系通过高频场景触发,赋能“知识-模型-应用”的闭环验证,为企业数智化转型保驾护航。目前,该实践已融入公司级工具链,并完成多领域试点验证,具备显著的可复制性与推广价值。        

演讲提纲:
1. 引言:三层体系与评测场景简介
- 快速切入大模型应用可持续性面临的挑战。
- 介绍以“知识-模型-应用”为核心的三层评测体系框架及其价值。
- 阐明“场景驱动”作为体系运作的核心原则。
2. 架构:场景驱动的三层体系核心设计
- 深入剖析三层架构的核心要素:知识层(准确性)、模型层(性能)、应用层(价值)。
- 展示如何通过自动化评测场景串联三层,构建质量反馈闭环。
3. 实践:体系落地与工具化集成
- 分享如何将体系融入开发流程(CI/CD)与公司级工具链。
- 简述试点推广中的关键步骤与经验心得。
4. 成效:量化收益与推广价值
- 用数据展示在质量、效能、成本上的提升效果。
- 总结体系的可持续性及企业级推广价值。

听众收益:   
本次演讲将为您带来在AI大模型时代下,关于应用质量、效能与可持续性的前沿实践与深刻洞察。聆听本次分享,您将获得:
1. 一套可落地的可持续质量保障体系: 了解如何将经典的TDD(测试驱动开发)思想创新性地应用于AI应用生命周期,获得一套经过实践验证的、覆盖“知识-模型-应用”三层的自动化评测体系框架,为您企业的AI项目保驾护航。
2. 破解AI应用“黑盒”难题的关键思路: 学习如何通过场景驱动,将模糊的AI能力评估转化为可量化、可监控、可迭代的标准化评测流程,有效解决大模型应用在准确性、稳定性及价值交付上的不确定性痛点。
3. 提升效能与降低风险的实用方法: 获取具体的实践案例和工具链集成方案,了解如何通过高频自动化评测及早发现问题,显著减少人工验证成本,加速迭代周期,同时大幅降低因模型退化或知识幻觉带来的业务风险。

现任中兴通讯有线研究院AI技术教练,深耕大模型(LLM)技术研发与落地应用。目前主要聚焦于AI赋能研发提效与AI落地质量保障两大方向,牵头有线院AI评测能力建设、需求域AI研发提效等多个核心专题,致力于通过创新技术为工程实践赋能。其主导构建的“场景驱动三层评测体系”有效夯实了AI应用的质量基石,护航企业数智化转型。同时,积极融入技术社区,曾赴2024年AIDD、NJSD等业界技术大会进行交流学习,持续追踪前沿动态。
京ICP备2020039808号-4 京公网安备11011202100922号