Agent评测和质量保障

本论坛论坛聚焦AI驱动的全生命周期质量管理新范式。探讨AI如何洞察研发全过程质量风险——需求阶段的缺陷预测、设计环节的架构风险识别、编码过程的质量隐患预警。深入剖析AI赋能质量工程关键场景,如生成质量计划与风险清单、Agent协同驱动流程持续改进、基于LLM的客户反馈智能分析与质量洞察提取。探讨从被动质量保障到主动质量预防的转型路径。汇聚质量管理专家与AI实践者,分享智能质量管理体系构建与提升案例。     
出品人:王 鹏
研发领域资深技术专家 ,长期承担工程技术研发及测试团队管理岗位,在智能化领域有八年以上的实践经验,先后就职于腾讯、蚂蚁集团及兴业银行。在腾讯期间,主导多款顶级游戏的质量标准制定,其移动游戏质量体系成为行业标杆,落地过游戏领域CNN&DQN驱动的自动化测试、基于图谱的竞品分析系统等方案;在蚂蚁期间,牵头数字金融线质量与风险防控智能化建设,0-1构建算法模型质量保障方法,落地遗传算法驱动的智能化资金核对方案、基于图的代码及缺陷分析方案及基于强化学习的流量生成方案等智能化解决方案,具备跨行业的工程技术架构设计、业务质量保障与研发体系建设落地实践,具备将AI能力产品化落地的完整闭环经验,目前负责兴业银行AI+质量保障相关工作。
兴业银行 资深测试专家
大模型应用 Agent 的质量保障体系
侯晓军
美团 测试专家
内容简介:
大模型应用Agent智能测试体系创新突破传统测试框架在确定性与非确定性场景下的验证瓶颈,采用静态拓扑解析、动态行为Mock和智能生成三位一体架构。静态层针对工作流结构,校验节点配置的完整性与逻辑一致性,保障编排质量。动态层通过全链路Mock引擎,实现多分支路径和节点执行模式的灵活控制,支持从原子节点到复杂流程的分层验证。智能层融合能力,构建智能生成、自动修复、持续执行的闭环流水线,将风险拦截前置到配置阶段。体系实现底层规约确立、核心逻辑验证和发布管控的系统协同,推动质量保障从自动化向智能化升级。        

演讲提纲:
1. 背景介绍
针对 AI Agent 配置复杂、输出不确定、路径难覆盖三大质量挑战,构建“静态检查 + 动态验证 + 智能生成”三位一体测试体系。
2. 核心挑战
2.1  配置复杂
工作流配置错误上线后才暴露,修复成本高。
2.2  输出不确定
大模型“幻觉”风险,传统断言失效。
2.3  路径难覆盖
Agent 动态决策,人工测试无法枚举所有场景。
3. 解决方案
3.1 三位一体架构
3.2 实现路径
3.2.1  第一层:配置阶段风险识别(拦截在执行前)
自动解析工作流结构,检查配置完整性与逻辑自洽性。
3.2.2  第二层:执行阶段精准验证(突破不确定性)
Mock 技术强制覆盖异常和低频路径,支持三种灵活执行模式。
3.2.3  第三层:智能化全闭环(无人工干预)
利用OpenClaw自动生成用例、自动修复失败用例,无缝集成发布流水线。
4. 落地效果
4.1  问题发现周期
缩短 60%(配置提交即检测,从天级压缩至分钟级)
4.2  业务覆盖度
覆盖 8 条业务分线,核心 Agent 覆盖率 95%+
4.3  测试效率
测试效率提升 50%+
5. 未来规划
探索更主动、更智能的测试手段,引入对抗测试机制主动探测 Agent 的潜在风险,使系统具备自我学习与持续优化能力,推动质量保障从人工驱动迈向 AI 自治。

听众收益:
1. 掌握破解大模型 Agent 复杂逻辑验证难题的系统化架构思路
2. 获取应对复杂工作流与动态分支的精准测试工程实践
3. 洞悉质量保障“防线左移”与测试智能化的演进路径

美团技术团队6年经验,专注于客服智能与通讯业务的质量保障,具备丰富的复杂系统验证经验。近年来主导大模型Agent测试体系建设,创新性落地“静态解析+动态Mock+AI生成”三位一体架构,有效解决确定性与非确定性逻辑混合的测试难题。致力于将AI技术深度融入流水线,实现质量保障的智能化左移。
从“跑分”到“护栏”:AI Agent 可观测和质量保障体系
林能源
小红书 资深工程师
内容简介:
随着 AI Agent 从单一模型向多维交互演进,传统 DevOps 体系在面对小红书等 ToC/ToB 规模化落地场景时正面临严峻挑战。Agent 的故障模式已从显性的“异常型”转变为隐性的“漂移型”,其变更单元也由代码扩展至 Prompt、模型、工具及知识的复杂组合。这种转变使得传统的静态跑分与确定性断言失效,极易出现监控指标全绿但用户体验持续劣化的“黑盒”困境。
本分享将深度剖析 AI 评估的逻辑演进,探讨构建以评估为核心的 AgentOps 理论框架。我们将拆解从“代码覆盖率”向“能力覆盖率”转化的度量维度,分享全链路追踪在复杂系统中的观测价值,并重点讨论如何通过离线与在线双轨评估逻辑实现潜在风险拦截,以及建立 Good/Bad Case 自动回流至评测集的闭环机制构想。

演讲提纲:
1. 架构重塑:从传统软件工程到Agent原生架构的转变
- 范式转移:AI Agent 的概率性与自适应特征,促使技术栈从“确定性逻辑”转向“非确定性推理”。
- 架构适配:评估系统必须成为 Agent 架构的“原生组件”,而非事后补丁
2. 评估进化:构建自动化与双轨制的质量地基
- AI可观测性数据集成:从“代码执行路径追踪” 转向 “逻辑推理路径追踪”
- 评估的不可能三角:准确性、通用性与成本的利益博弈
- 双轨制质量监控:“深度评估”与“实时干预”并行的双轨制架构
3. 落地实践:不同评估方法论在不同领域的适用性
- 任务驱动型:不同任务场景的评估范式
- 流程驱动型:从研发到上线的评估体系演进

听众收益:
1. 掌握一套从0到1可落地的评估体系架构设计思路。
2. Agent非确定性输出的量化评估方法。
3. 评估效果在通用型、准确性、成本之间的平衡。
主导AI+可观测Agent工程化建设,深耕AI应用全生命周期评估体系,落地从实时观测到自动化治理的Agent质量保障闭环。
让智能体可观察、可评估、可进化:
构建面向智能体的新一代可观测评估体系
高梦飞
支付宝 架构师
内容简介:
LLM是一颗重磅炸弹,引爆了全球的智能体应用市场,由于智能体系统在架构、交互模式和运行机制上与传统微服务存在本质差异。基于传统的微服务可观测架构在智能体场景(”鞋不对脚“),面临着成本+效率的双重挑战,进而影响整个智能体高效的迭代与质量的提升。
我们结合SLS+大数据分析+Judge-Model+Tracing等技术,构建智能体深度观测+评估体系,不仅实现了对智能体调用链路的白盒化透视,还实现了调用链路实时评测、归因。问题定位效率从小时级缩短至分钟级,该体系已在生产大规模稳定运行,彻底打破链路过长、节点过多带来的协作壁垒。
本次主要分享在智能体链路观测、跨系统协同、实时效果分析的工程实践,以及在多模态可观测领域的探索。

演讲提纲:
1. 可观测性的升维:智能体评估与调用链路可观测
1.1 传统微服务可观测体系的“水土不服”:
1.2 智能体规模化落地面临的现实挑战:
“我们能快速上线一个智能体,却难以快速定位它为什么‘胡说八道’。”
1.3 支付宝智能体可观测与分析平台(Novaflow)
-定位:支付宝行业智能体全生命周期的健康监测与优化平台。
-核心使命:让每一个智能体的“思考过程”可观察、可评估、可归因、可进化。
2. 核心能力:Novaflow 如何做智能体的“健康专家”?
2.1 在线效果可观测:实时评测 + 自动归因 = 质量闭环
- 在线流量的自动化、标准化评估
- 智能体异常回答与知识库知识的定位与关联
- 更灵活的智能体多节点的AB对照实验
2.2 端到端链路可观测:白盒化透视智能体的“思考路径”
- 超越传统 Tracing:不止于 span,更关注语义节点
- 统一的可观测视图与语义节点建模,让所有角色看到同一份“证据链”,智能体的调用链路“易观测”
- 智能体的对C用户效果可观测,实时感知用户真实体感
- 智能体的链路归因可观测,“谁的问题谁负责”
2.3 问题处置修复可观测
-“问题日结”,智能体每天的问题汇总统一交由算法服务自动化归纳处置
-“问题分拣”,利用大模型与大数据技术自动将问题归纳到不同的处理团队
-“问题去重”,相似异常去重,降低后续的处理量与处理效果
3. 还可以做什么
3.1 图片、音频、视频等模态无法像文本一样直接嵌入传统 Trace 日志。
3.2 跨模态对齐困难(如“图片中的红框区域”对应哪段文本描述?)。

听众收益:
开发者:一套可落地的智能体可观测与分析架构的方法论
平台/SRE:新一代面向 Agent 的监控架构设计参考
算法工程:从“单打独斗”到“能力复用”的工程提效路径
技术管理者:如何系统性保障智能体质量、加速迭代、控制风险

拥有7年大型系统架构设计经验,先后主导过PB级日志系统、亿级业务对账结算系统、大规模智能体可观测分析系统的架构工作。近2年聚焦于AI Infra方向,专注于智能体可观测性、效果评测与归因分析等核心能力建设,致力于通过数据驱动提升智能体系统的透明度、可解释性与持续优化能力。
携程内容领域Agent评测实践分享
韩 峥
携程 模型评测专家
内容简介:
携程内容中心负责包括旅行问答助手、行程线路规划助手、内容创作平台以及工具等在内的各类AI应用。在大模型时代,携程内容中心在内容生产,加工,消费等全方位多维度探索最新的AI大模型/Agent的各个层面的落地应用。 在模型评测方面,各类不同Agent带来了不同评测方面的挑战,如何针对每一类应用,探索落地最佳的评测方案和评测体系,成为了摆在评测同学面前的最大挑战。
本分享旨在介绍内容中心在旅行问答、行程线路规划Agent以及内容创作领域的AI评测的实践,分别面向问答类Agent、行程规划类Agent以及多模态生成类Agent的评测,希望以点带面,给用户在类似的内容领域的AI评测方向,带来一点启发和借鉴。
最后介绍携程自主研发的大模型/Agent评测平台及其主要功能,并尝试与行业内头部一站式模型平台进行了初步的对比(阿里-百炼、 字节-火山方舟等)。

演讲提纲:
1. 携程内容板块总体介绍
2. 旅行问答Agent评测实践
2.1 问题&难点
2.2 挑战解决 (MCP、RAG的应用)  
2.3 落地收益)
3. 线路规划Agent 评测实践
3.1 问题&难点
3.2 解决思路 (多Agent协作的应用)
3.3 落地效果 )
4. 内容创作领域评测实践
视频质量分评测体系、 视频封面制作多Agent协作架构
5. 携程大模型/Agent评测平台介绍
5.1 主要功能简单介绍
5.2 与业内其他平台对比

听众收益:
1. 内容方面:面向问答类Agent、行程规划类Agent以及多模态生成类Agent的评测,希望以点带面,给用户在类似的内容领域的AI评测方向,带来一点启发和借鉴。
2. 技术方面:涉及CrewAI/Langraph打造多Agent协作评测实践;Skill/MCP在评测领域的落地、知识库(RAG)在评测的应用等。

北京大学硕士毕业,先后在百度、蚂蚁、字节等多家头部互联网公司负责模型评测质量。在百度主导自动驾驶模型评测,在蚂蚁负责支付宝刷脸支付算法质量,在字节负责飞书myAI大模型评测等,有超过10年的算法/大模型领域评测经验。
AI眼镜评测体系与大模型提效实践
张文博
蚂蚁集团 智能穿戴质量负责人
内容简介:
核心实践与提效表现
1. 智能样本工程:从“人工采集”到“合成数据工厂”
1.1 四大引擎驱动:
- 语义泛化:基于种子语料,自动生成覆盖长尾口音、句式的海量文本。
- 高保真TTS:瞬间转化为多方言、多性别、多语速音频。
- 声学仿真:线性/非线性混合线下噪音(风噪、车流),构建极端压力测试场。
- 共识标注:引入“多模型陪审团”,仅当多模型判定一致时标记为“真值”,替代人工。
1.2 量化收益:
- 效率跃迁:周期从14天 → 0.5天(提升28倍)。
- 成本归零:节省采集标注费数十万元(¥1-6/条),支撑新功能极速上线。
2. 自动化评测执行:软硬协同,重塑物理交互测试
2.1 硬核创新方案:
- 机械臂+灯箱扫码仿真:自研机械臂控制眼镜空间信息,配合可编程灯箱模拟各类二维码/蓝环场景,完美复现“看一眼支付”的物理链路,高效构造眼镜高保真评测图片样本。
- 多模态端到端自动化盒子:集成音频驱动,环境构造,执行与分析的一体化设备,实现“指令下发 - 动作执行 - 结果验证”的全链路无人值守。
- AI辅助平台构建:利用Codefuse/One-day加速平台开发,聚焦业务逻辑而非底层基建。
2.2 量化收益:
- 极致人效:2人,3周完成从0到1全栈平台建设。
- 频率质变:评测频次 1次/月 → 1次/天。
- 执行提速:扫码评测 3人日 → 0.5人日;回归效率 2人日 → 0.5人日。
3. 智能分析与报告:去噪存真,洞察本质
3.1 双重智能策略:
- 多模态场景清洗:针对“误唤起”,结合回流图片(视觉)与对话上下文(语义),精准识别“非支付意图”(如骑行误触),自动剔除误报噪音。
- 报告Agent:自动聚合数据,提炼趋势与风险,统一分析标准。
3.2 量化收益:
- 决策提速:报告产出 3天 → 1天。
- 信任重建:精准锁定“误唤起支付”等真实高危缺陷,消除虚假报警干扰。

演讲提纲:
总体架构:大模型驱动的“软硬一体”智能化评测体系
构建了‘合成数据驱动 - 软硬协同执行 - 智能洞察分析’的全链路智能化评测体系。
1. 数据层(合成工厂):利用大模型泛化生成文本/TTS/噪音样本,结合多模型共识标注,实现数据零成本生产。
2. 执行层(软硬协同):
2.1 软:基于大模型辅助VibeCoding快速构建评测调度平台。
2.2 硬:创新引入“机械臂+灯箱”模拟扫码环境,部署“多模态端到端自动化盒子”,解决物理交互难题。
3. 分析层(智能决策):利用多模态Agent过滤噪音;数据分析Agent自动生成结论,实现从“看数据”到“得结论”的闭环。

听众收益:
1. 一套范式:可直接复用的“音频仿真样本工厂”建设方案,解决IoT数据稀缺难题。
2. 硬核方案:“机械臂+灯箱”扫码自动化及“多模态端到端盒子”架构参考,提高视觉样本构造效率以及验证效率。
3. 一种方法:利用多模态大模型“去噪存真”的智能分析新思路,解决误报顽疾。
4. 效能实证:见证“小团队+AI”如何在3周内构建高频自动化平台,少走弯路。

蚂蚁集团智能穿戴业务高级测试开发工程师,目前主要负责智能穿戴业务的质量体系建设,算法评测,自动化工程建设等,保障眼镜,手表,车机等智能终端上的支付宝产品的高可用性,稳定性;及AITestOps平台、体验测试平台,保障算法评测的充分度以及评测效率,提升产品的支付体验。毕业后曾就职于微软和阿里体育,从事UI自动化,质量中台开发,视觉算法评测等工作。
京ICP备2020039808号-4 京公网安备11011202100922号