出品人:刘 瑾
清华硕士、在互联网toC搜广推、大安全、移动端、金融科技等业务具有10年以上质量和风险管理经验。多年智能化金融toB业务和产品负责人,具备丰富的业务和研发管理经验。目前专注于蚂蚁财富在对话、营销、生成等场景的大模型应用落地和底座的质量和风险工作。
蚂蚁集团 质量技术风险总监

大模型和AI应用评测

本论坛旨在深入探讨人工智能和大型语言模型(LLM)的性能评估方法。涵盖模型基准测试、评估指标、测试工具和框架、结果解释、模型比较、可解释性和透明度等关键主题。通过分享最新的评测技术和策略,致力于帮助参与者理解AI和LLM的性能,推动评估标准的制定和评测技术的进步。     
打造AI研发新基建 - 蚂蚁大模型评测体系的设计与实践
王旭东
蚂蚁集团 高级技术专家
内容简介:
大模型评测技术是性能的“标尺”,客观衡量模型能力;安全的“守门员”,检测并预防偏见、有害内容和不可靠输出;发展的“指南针”,指引模型迭代优化和技术创新方向;应用的“过滤器”, 确保模型被负责任地部署到合适的场景。因此,我们认为大模型评测技术是 AI 研发的新基建。
蚂蚁在研发基础模型、开发AI应用的过程中积累了大量大模型评测的实践经验,该演讲系统探讨了模型与AI应用评测的核心挑战与实践方案,旨在为构建科学、高效、可扩展的AI评测体系提供关键洞见与落地路径。

演讲提纲:   
1. 蚂蚁大模型评测体系的建设背景
2. 蚂蚁大模型评测体系的分层:模型评测、应用评测、评测平台
3. 模型评测:聚焦Base、Chat、Reasoning模型的评测体系设计,并深入解析“边训边评”、大规模多机分布式评测的关键技术,以及提升评测稳定性和效率的优化策略
4. 应用评测:高质量Benchmark设计方法论、动态评测集构建技术、提升自动评测准确率的有效方法,以及支持复杂交互的动态多轮评测框架。
5. 评测平台:剖析评测平台的核心要素设计原则,重点介绍评测任务调度策略的优化实践,及其支撑大规模、高并发、自动化评测的高效平台架构。
6. 对大模型评测技术的总结与展望        

听众收益:
1.了解蚂蚁大模型和 AI 应用评测的实践方法
2.了解蚂蚁 AI 评测平台的设计与实现        

清华大学硕士,2019 年加入蚂蚁集团,目前担任高级技术专家,技术风险部 AI 质量工程团队负责人。团队负责定义 AI 质量标准,管理 AI 特有风险,通过专业方法与平台工程,构建从数据到模型和 AI 应用的全生命周期保障,确保 AI 系统可靠、安全、高效地交付业务价值。
GTS LLM机器问答产品数据飞轮实践
黄立华
华为技术有限公司 GTS测试专家 
内容简介:
业务痛点:1.业务持续增长,生产环境准确率不清晰;2.问答准确率运营人工分析效率低,无法全量分析生产用户问;3.跟业界模型对比未工程化和系统化,无法给出具体体验差距,缺乏众测对比平台;
测试痛点:如何构建有公信力的评测集(如何引流生产有效用户问做为测评集和生成性能压测模型)?如何判定结果正确性?上线要求如何评估充分性?如何获取、分析运营阶段的真实用户问题?
通过构建双循环:1.研发内层数据飞轮;2.蓝军客户外层数据飞轮来解决上述痛点,通过数据飞轮卷积各角色共同针对具体全量现网准确率、全量badusecase、体验偏低模块进行改进,快速闭环业务痛点,在过程中积累测评流资产、运营流资产、知识流资产。
关键技术如下:
1.AI大模型引流&数据清洗技术
2.裁判大模型判定技术;
3.AI蓝军盲测判定技术;
4.AI性能压测模型生成技术;

演讲提纲:
1.业务痛点;
2.测试痛点;
3.AI大模型引流&数据清洗技术
4.裁判大模型判定技术;
5.AI蓝军盲测判定技术;
6.AI性能压测模型生成技术;

听众收益:
1.如何构建具有公信力的测评集,使得研发测试评估准确率跟生产保持一致,偏差为5%,提升评测效率。
2.LLM大模型产品如何利用数据飞轮来评测测试充分性,积累测评流资产;
3.准确度量现网准确率、baduscase、产品模型与业界模式差异,提取共性问题能力和实践,基于薄弱点快速闭环改进,提升产品质量和评测效率;        

GTS 测试专家,一直从事GTS AI 大模型产品 评测系统能力构建和评测系统开发,GTS LLM辅助测试设计能力构建;构建了LLM辅助测试设计系统和LLM 大模型产品评测系统。系统推广到了其他产品线进行应用和落地。构建了LLM大模型产品测试方法论,从评测集构建、评测提单如何落地、评测评估出口、上线运营快速闭环的实践价值资产输出。
评测驱动开发(EDD):AI原生飞轮驱动研发效能跃迁
蒋学鑫
中兴通讯中心研究院 AI研发提效总体组专家
内容简介:
在AI智能体深度融入软件研发的背景下,传统开发模式面临评测维度不足、能力评估主观化、迭代验证低效三大核心挑战。本次分享提出以 EDD(评测驱动开发:Evaluation-Driven Development) 为核心的研发新范式,通过构建全链路评测体系与闭环运作流程,系统性验证并优化AI智能体(开发/测试/运维等)的内在能力与行为逻辑。EDD将 “元测试”(Meta-Testing) 理念嵌入开发生命周期,以确定性、安全性、鲁棒性等质量属性为标尺,实现从“产物检验”到“生产者能力认证”的范式升维。其核心价值在于打造 “评测-反馈-优化”的AI原生飞轮,结合数据、模型与策略的闭环迭代,从根源提升企业级AI系统的可信赖性与可解释性。这一范式不仅为智能体能力短板精准定位与选型决策提供科学支撑,更推动研发效能向智能化、高可靠方向进化。        

演讲提纲:
1.AI+时代研发范式的根本性转变
1.1从确定性逻辑到概率性智能体的迁移挑战
1.2当前痛点:评测维度缺失、能力评估主观、迭代效率低下
1.3 EDD范式的定位:解决完备性、客观性、时效性三大瓶颈
2.EDD核心架构:元测试与闭环飞轮
2.1 元测试(Meta-Testing):智能体能力的“质量认证”框架(确定性/安全性/可解释性)
2.2 评测驱动闭环:构建“数据→模型→策略→反馈”的AI原生飞轮
2.3 与传统xDD对比:从验证产物到优化生产者的范式升维
3.企业级EDD实施路径
3.1 全链路评测体系:多维度能力短板定位工具设计
3.2 统一评测底座:支持智能体端到端能力客观评估的规范平台
3.3 生命周期嵌入:EDD流程与CI/CD的深度集成实践
4.EDD的行业价值与未来展望
4.1 企业收益:智能体选型效率提升、版本迭代风险可控
4.2 开发者收益:从“调参经验”到“能力量化”的转型
4.3 生态展望:评测标准统一化与智能体能力市场构建

听众收益:
1.认知革新:理解AI+时代研发范式从“确定性测试”到“概率性评测”的必然性,掌握EDD解决核心痛点的逻辑框架。
2.方法论落地:获得构建智能体能力评测体系的关键路径,包括元测试设计、闭环流程搭建及与传统流程的融合策略。
3.决策支撑:基于EDD的客观评估能力,提升智能体选型与迭代效率,降低AI落地风险,强化企业技术竞争力

中兴通讯资深研发专家,曾担任操作系统产品部研发经理、项目经理、副部长等职务,带领团队荣获第四届中国工业大奖和第21届中国国际软件博览会金奖,当选中兴通讯青年领军人才。目前负责中兴通讯中心研究院AI研发提效工作。
京ICP备2020039808号-4 京公网安备11011202100922号