出品人:刘 瑾
清华硕士、在互联网toC搜广推、大安全、移动端、金融科技等业务具有10年以上质量和风险管理经验。多年智能化金融toB业务和产品负责人,具备丰富的业务和研发管理经验。目前专注于蚂蚁财富在对话、营销、生成等场景的大模型应用落地和底座的质量和风险工作。
蚂蚁集团 质量技术风险总监

大模型和AI应用评测

本论坛旨在深入探讨人工智能和大型语言模型(LLM)的性能评估方法。涵盖模型基准测试、评估指标、测试工具和框架、结果解释、模型比较、可解释性和透明度等关键主题。通过分享最新的评测技术和策略,致力于帮助参与者理解AI和LLM的性能,推动评估标准的制定和评测技术的进步。     
AI 模型评测新范式和关键技术
王旭东
蚂蚁集团 高级技术专家
内容简介:
大模型评测技术是性能的“标尺”,客观衡量模型能力;安全的“守门员”,检测并预防偏见、有害内容和不可靠输出;发展的“指南针”,指引模型迭代优化和技术创新方向;应用的“过滤器”, 确保模型被负责任地部署到合适的场景。因此,我们认为大模型评测技术是 AI 研发的新基建。
蚂蚁在研发基础模型、开发AI应用的过程中积累了大量大模型评测的实践经验,该演讲系统探讨了模型与AI应用评测的核心挑战与实践方案,旨在为构建科学、高效、可扩展的AI评测体系提供关键洞见与落地路径。

演讲提纲:   
1.AI 模型评测能力建设背景,为什么说 AI 模型评测需要新范式
2.AI 模型评测的关键技术:
2.1评测的基本要素;
2.2评测贯穿模型研发全生命周期,每个阶段关注不同;
2.3评测的核心课题 - Benchmark 建设,Benchmark 建设的核心难题,对于静态 Benchmark 和动态 Benchmark 做探讨,为什么 Benchmark 需要持续演进,定义什么是高质量的 Benchmark;
2.4蚂蚁动态评测在多轮对话上的应用案例;
2.5为什么需要 LLM Judge 技术,LLM Judge 的缺陷,如何衡量 LLM Judge 的准确性,如何提升 LLM Judge 的准确性;
2.6在开放动态的评测环境里,构建交互模拟式评测。
3.总结和展望,评测的挑战

听众收益:
1.了解 AI 模型评测的核心技术难题 - 高质量 Benchmark 建设
2.了解评测的关键技术 LLM Judge 的缺陷和优化方案
3.蚂蚁关于动态评测和交互模拟式评测的实践    

清华大学硕士,2019 年加入蚂蚁集团,目前担任高级技术专家,技术风险部 AI 质量工程团队负责人。团队负责定义 AI 质量标准,管理 AI 特有风险,通过专业方法与平台工程,构建从数据到模型和 AI 应用的全生命周期保障,确保 AI 系统可靠、安全、高效地交付业务价值。
GTS LLM机器问答产品数据飞轮实践
黄立华
华为技术有限公司 GTS测试专家 
内容简介:
业务痛点:1.业务持续增长,生产环境准确率不清晰;2.问答准确率运营人工分析效率低,无法全量分析生产用户问;3.跟业界模型对比未工程化和系统化,无法给出具体体验差距,缺乏众测对比平台;
测试痛点:如何构建有公信力的评测集(如何引流生产有效用户问做为测评集和生成性能压测模型)?如何判定结果正确性?上线要求如何评估充分性?如何获取、分析运营阶段的真实用户问题?
通过构建双循环:1.研发内层数据飞轮;2.蓝军客户外层数据飞轮来解决上述痛点,通过数据飞轮卷积各角色共同针对具体全量现网准确率、全量badusecase、体验偏低模块进行改进,快速闭环业务痛点,在过程中积累测评流资产、运营流资产、知识流资产。
关键技术如下:
1.AI大模型引流&数据清洗技术;
2.裁判大模型判定技术;
3.AI蓝军盲测判定技术;
4.AI性能压测模型生成技术。

演讲提纲:
1.业务痛点;
2.测试痛点;
3.AI大模型引流&数据清洗技术
4.裁判大模型判定技术;
5.AI蓝军盲测判定技术;
6.AI性能压测模型生成技术。

听众收益:
1.如何构建具有公信力的测评集,使得研发测试评估准确率跟生产保持一致,偏差为5%,提升评测效率;
2.LLM大模型产品如何利用数据飞轮来评测测试充分性,积累测评流资产;
3.准确度量现网准确率、baduscase、产品模型与业界模式差异,提取共性问题能力和实践,基于薄弱点快速闭环改进,提升产品质量和评测效率。       

GTS 测试专家,一直从事GTS AI 大模型产品 评测系统能力构建和评测系统开发,GTS LLM辅助测试设计能力构建;构建了LLM辅助测试设计系统和LLM 大模型产品评测系统。系统推广到了其他产品线进行应用和落地。构建了LLM大模型产品测试方法论,从评测集构建、评测提单如何落地、评测评估出口、上线运营快速闭环的实践价值资产输出。
赋能研发创新:
Databricks数据智能平台引领GenAI与智能Agent实践
王 洋
Databricks 中国架构师总监
内容简介:
当前,生成式AI(GenAI)与智能Agent技术正在深刻变革研发创新模式。Databricks凭借其统一的数据智能平台,不仅赋能企业构建高效、安全、可扩展的GenAI应用,更推动智能Agent从概念走向落地。演讲将系统介绍Databricks在GenAI领域的技术优势,深入解析Data Intelligence Platform如何整合数据、AI与治理,重点分享Databricks全新Agent Framework和Agent Evaluation实践经验,助力研发团队快速迭代与评估AI Agent能力。最后,还将展示MLflow 3.0在模型全生命周期管理中的创新功能,推动研发流程智能化与标准化升级。        

演讲提纲:
1.Databricks Data Intelligence Platform 架构与能力总览
1.1宏观勾勒“数据智能平台”的整体框架,覆盖从数据融合治理、实时特征工程、AI建模,到Agent和模型服务、Observability等全栈流程
1.2涵盖Data Intelligence Platform整体定位与GenAI能力,数据智能平台与生成式AI的宏观背景
1.3强调“企业生产级GenAI”的落地难点与差异化优势,特别突出数据智能(Data Intelligence)、多模态/多源Agent系统、平台治理、实际客户落地案例(如FactSet)
2.Agent Framework & Agent Evaluation
2.1聚焦最新发布的Mosaic AI Agent Framework & Evaluation工具链,深度展示Databricks在高质量Agent系统持续迭代、自动化评测、端到端治理等方面的独特能力
2.2涵盖“如何用平台构建和部署Agent系统”“数据驱动的治理与合规”“内置LLM-Judge与评测实验”“多版本A/B测试闭环”等业界最前沿的Agent实操内容。
3.MLflow 3.0
3.1全方位解读MLflow 3.0如何演进为“面向GenAI与Agent的统一管理平台”,重点突出其在模型及Agent追踪、跨环境版本对比、集成Agent Evaluation、生产监控与反馈闭环等创新特性
3.2展现MLflow 3.0与Agent Framework/Agent Evaluation的无缝集成,以及如何赋能研发团队提升从实验到生产全过程的管控和协作效率
3.3内含丰富可观测性详解(Tracing、Metrics、Review App等),有利于现场演示“研发工作流智能化升级
4.行业落地故事/最佳实践材料

听众收益:
1.掌握企业级GenAI与智能Agent高效落地的方法,全面了解Databricks数据智能平台的创新实践。
2.学会如何用Agent Framework和MLflow 3.0提升AI研发自动化、评测、协作与生产运维效率。
3.借鉴行业标杆案例,获得推动智能研发创新和降本增效的可复制经验。

他拥有超过15年的从业经验,涵盖大规模机器学习、湖仓平台及GenAI解决方案架构,致力于帮助数字原生企业与大型企业解决最复杂的数据与人工智能挑战。
从机器学习工程师成长为解决方案架构师,再到如今的Databricks中国架构师团队负责人,王洋兼具深厚的技术专长与敏锐的商业洞察,长期服务于制造、零售、Digital Native、金融服务与生命科学等多个行业客户,助力其实现数字化转型。
在加入 Databricks 之前,王洋曾在腾讯与 Cloudera 担任关键技术岗位,主导人工智能平台建设与大数据架构等核心项目。Will 热衷于用数据与AI将复杂问题转化为可扩展、可落地的解决方案,持续推动企业技术创新与业务增长
评测驱动开发(EDD):AI原生飞轮驱动研发效能跃迁
蒋学鑫
中兴通讯中心研究院 AI研发提效总体组专家
内容简介:
在AI智能体深度融入软件研发的背景下,传统开发模式面临评测维度不足、能力评估主观化、迭代验证低效三大核心挑战。本次分享提出以 EDD(评测驱动开发:Evaluation-Driven Development) 为核心的研发新范式,通过构建全链路评测体系与闭环运作流程,系统性验证并优化AI智能体(开发/测试/运维等)的内在能力与行为逻辑。EDD将 “元测试”(Meta-Testing) 理念嵌入开发生命周期,以确定性、安全性、鲁棒性等质量属性为标尺,实现从“产物检验”到“生产者能力认证”的范式升维。其核心价值在于打造 “评测-反馈-优化”的AI原生飞轮,结合数据、模型与策略的闭环迭代,从根源提升企业级AI系统的可信赖性与可解释性。这一范式不仅为智能体能力短板精准定位与选型决策提供科学支撑,更推动研发效能向智能化、高可靠方向进化。        

演讲提纲:
1.AI+时代研发范式的根本性转变
1.1从确定性逻辑到概率性智能体的迁移挑战
1.2当前痛点:评测维度缺失、能力评估主观、迭代效率低下
1.3 EDD范式的定位:解决完备性、客观性、时效性三大瓶颈
2.EDD核心架构:元测试与闭环飞轮
2.1 元测试(Meta-Testing):智能体能力的“质量认证”框架(确定性/安全性/可解释性)
2.2 评测驱动闭环:构建“数据→模型→策略→反馈”的AI原生飞轮
2.3 与传统xDD对比:从验证产物到优化生产者的范式升维
3.企业级EDD实施路径
3.1 全链路评测体系:多维度能力短板定位工具设计
3.2 统一评测底座:支持智能体端到端能力客观评估的规范平台
3.3 生命周期嵌入:EDD流程与CI/CD的深度集成实践
4.EDD的行业价值与未来展望
4.1 企业收益:智能体选型效率提升、版本迭代风险可控
4.2 开发者收益:从“调参经验”到“能力量化”的转型
4.3 生态展望:评测标准统一化与智能体能力市场构建

听众收益:
1.认知革新:理解AI+时代研发范式从“确定性测试”到“概率性评测”的必然性,掌握EDD解决核心痛点的逻辑框架
2.方法论落地:获得构建智能体能力评测体系的关键路径,包括元测试设计、闭环流程搭建及与传统流程的融合策略
3.决策支撑:基于EDD的客观评估能力,提升智能体选型与迭代效率,降低AI落地风险,强化企业技术竞争力

中兴通讯资深研发专家,曾担任操作系统产品部研发经理、项目经理、副部长等职务,带领团队荣获第四届中国工业大奖和第21届中国国际软件博览会金奖,当选中兴通讯青年领军人才。目前负责中兴通讯中心研究院AI研发提效工作。
京ICP备2020039808号-4 京公网安备11011202100922号