AI+质量管理

本论坛论坛聚焦AI驱动的全生命周期质量管理新范式。探讨AI如何洞察研发全过程质量风险——需求阶段的缺陷预测、设计环节的架构风险识别、编码过程的质量隐患预警。深入剖析AI赋能质量工程关键场景,如生成质量计划与风险清单、Agent协同驱动流程持续改进、基于LLM的客户反馈智能分析与质量洞察提取。探讨从被动质量保障到主动质量预防的转型路径。汇聚质量管理专家与AI实践者,分享智能质量管理体系构建与提升案例。     
出品人:王 鹏
研发领域资深技术专家 ,长期承担工程技术研发及测试团队管理岗位,在智能化领域有八年以上的实践经验,先后就职于腾讯、蚂蚁集团及兴业银行。在腾讯期间,主导多款顶级游戏的质量标准制定,其移动游戏质量体系成为行业标杆,落地过游戏领域CNN&DQN驱动的自动化测试、基于图谱的竞品分析系统等方案;在蚂蚁期间,牵头数字金融线质量与风险防控智能化建设,0-1构建算法模型质量保障方法,落地遗传算法驱动的智能化资金核对方案、基于图的代码及缺陷分析方案及基于强化学习的流量生成方案等智能化解决方案,具备跨行业的工程技术架构设计、业务质量保障与研发体系建设落地实践,具备将AI能力产品化落地的完整闭环经验,目前负责兴业银行AI+质量保障相关工作。
兴业银行 资深测试专家
携程内容领域Agent评测实践分享
韩 峥
携程 模型评测专家
内容简介:
携程内容中心负责包括旅行问答助手、行程线路规划助手、内容创作平台以及工具等在内的各类AI应用。在大模型时代,携程内容中心在内容生产,加工,消费等全方位多维度探索最新的AI大模型/Agent的各个层面的落地应用。 在模型评测方面,各类不同Agent带来了不同评测方面的挑战,如何针对每一类应用,探索落地最佳的评测方案和评测体系,成为了摆在评测同学面前的最大挑战。
本分享旨在介绍内容中心在旅行问答、行程线路规划Agent以及内容创作领域的AI评测的实践,分别面向问答类Agent、行程规划类Agent以及多模态生成类Agent的评测,希望以点带面,给用户在类似的内容领域的AI评测方向,带来一点启发和借鉴。
最后介绍携程自主研发的大模型/Agent评测平台及其主要功能,并尝试与行业内头部一站式模型平台进行了初步的对比(阿里-百炼、 字节-火山方舟等)。

演讲提纲:
1. 携程内容板块总体介绍
2. 旅行问答Agent评测实践
2.1 问题&难点
2.2 挑战解决 (MCP、RAG的应用)  
2.3 落地收益)
3. 线路规划Agent 评测实践
3.1 问题&难点
3.2 解决思路 (多Agent协作的应用)
3.3 落地效果 )
4. 内容创作领域评测实践
视频质量分评测体系、 视频封面制作多Agent协作架构
5. 携程大模型/Agent评测平台介绍
5.1 主要功能简单介绍
5.2 与业内其他平台对比

听众收益:
1. 内容方面:面向问答类Agent、行程规划类Agent以及多模态生成类Agent的评测,希望以点带面,给用户在类似的内容领域的AI评测方向,带来一点启发和借鉴。
2. 技术方面:涉及CrewAI/Langraph打造多Agent协作评测实践;Skill/MCP在评测领域的落地、知识库(RAG)在评测的应用等。

北京大学硕士毕业,先后在百度、蚂蚁、字节等多家头部互联网公司负责模型评测质量。在百度主导自动驾驶模型评测,在蚂蚁负责支付宝刷脸支付算法质量,在字节负责飞书myAI大模型评测等,有超过10年的算法/大模型领域评测经验。
从“跑分”到“护栏”:AI Agent 可观测和质量保障体系
林能源
小红书 资深工程师
内容简介:
随着 AI Agent 从单一模型向多维交互演进,传统 DevOps 体系在面对小红书等 ToC/ToB 规模化落地场景时正面临严峻挑战。Agent 的故障模式已从显性的“异常型”转变为隐性的“漂移型”,其变更单元也由代码扩展至 Prompt、模型、工具及知识的复杂组合。这种转变使得传统的静态跑分与确定性断言失效,极易出现监控指标全绿但用户体验持续劣化的“黑盒”困境。
本分享将深度剖析 AI 评估的逻辑演进,探讨构建以评估为核心的 AgentOps 理论框架。我们将拆解从“代码覆盖率”向“能力覆盖率”转化的度量维度,分享全链路追踪在复杂系统中的观测价值,并重点讨论如何通过离线与在线双轨评估逻辑实现潜在风险拦截,以及建立 Good/Bad Case 自动回流至评测集的闭环机制构想。

演讲提纲:
1. 架构重塑:从传统软件工程到Agent原生架构的转变
- 范式转移:AI Agent 的概率性与自适应特征,促使技术栈从“确定性逻辑”转向“非确定性推理”。
- 架构适配:评估系统必须成为 Agent 架构的“原生组件”,而非事后补丁
2. 评估进化:构建自动化与双轨制的质量地基
- AI可观测性数据集成:从“代码执行路径追踪” 转向 “逻辑推理路径追踪”
- 评估的不可能三角:准确性、通用性与成本的利益博弈
- 双轨制质量监控:“深度评估”与“实时干预”并行的双轨制架构
3. 落地实践:不同评估方法论在不同领域的适用性
- 任务驱动型:不同任务场景的评估范式
- 流程驱动型:从研发到上线的评估体系演进

听众收益:
1. 掌握一套从0到1可落地的评估体系架构设计思路。
2. Agent非确定性输出的量化评估方法。
3. 评估效果在通用型、准确性、成本之间的平衡。
主导AI+可观测Agent工程化建设,深耕AI应用全生命周期评估体系,落地从实时观测到自动化治理的Agent质量保障闭环。
AI眼镜评测体系与大模型提效实践
张文博
蚂蚁集团 智能穿戴质量负责人
内容简介:
核心实践与提效表现
1. 智能样本工程:从“人工采集”到“合成数据工厂”
1.1 四大引擎驱动:
- 语义泛化:基于种子语料,自动生成覆盖长尾口音、句式的海量文本。
- 高保真TTS:瞬间转化为多方言、多性别、多语速音频。
- 声学仿真:线性/非线性混合线下噪音(风噪、车流),构建极端压力测试场。
- 共识标注:引入“多模型陪审团”,仅当多模型判定一致时标记为“真值”,替代人工。
1.2 量化收益:
- 效率跃迁:周期从14天 → 0.5天(提升28倍)。
- 成本归零:节省采集标注费数十万元(¥1-6/条),支撑新功能极速上线。
2. 自动化评测执行:软硬协同,重塑物理交互测试
2.1 硬核创新方案:
- 机械臂+灯箱扫码仿真:自研机械臂控制眼镜空间信息,配合可编程灯箱模拟各类二维码/蓝环场景,完美复现“看一眼支付”的物理链路,高效构造眼镜高保真评测图片样本。
- 多模态端到端自动化盒子:集成音频驱动,环境构造,执行与分析的一体化设备,实现“指令下发 - 动作执行 - 结果验证”的全链路无人值守。
- AI辅助平台构建:利用Codefuse/One-day加速平台开发,聚焦业务逻辑而非底层基建。
2.2 量化收益:
- 极致人效:2人,3周完成从0到1全栈平台建设。
- 频率质变:评测频次 1次/月 → 1次/天。
- 执行提速:扫码评测 3人日 → 0.5人日;回归效率 2人日 → 0.5人日。
3. 智能分析与报告:去噪存真,洞察本质
3.1 双重智能策略:
- 多模态场景清洗:针对“误唤起”,结合回流图片(视觉)与对话上下文(语义),精准识别“非支付意图”(如骑行误触),自动剔除误报噪音。
- 报告Agent:自动聚合数据,提炼趋势与风险,统一分析标准。
3.2 量化收益:
- 决策提速:报告产出 3天 → 1天。
- 信任重建:精准锁定“误唤起支付”等真实高危缺陷,消除虚假报警干扰。

演讲提纲:
总体架构:大模型驱动的“软硬一体”智能化评测体系
构建了‘合成数据驱动 - 软硬协同执行 - 智能洞察分析’的全链路智能化评测体系。
1. 数据层(合成工厂):利用大模型泛化生成文本/TTS/噪音样本,结合多模型共识标注,实现数据零成本生产。
2. 执行层(软硬协同):
2.1 软:基于大模型辅助VibeCoding快速构建评测调度平台。
2.2 硬:创新引入“机械臂+灯箱”模拟扫码环境,部署“多模态端到端自动化盒子”,解决物理交互难题。
3. 分析层(智能决策):利用多模态Agent过滤噪音;数据分析Agent自动生成结论,实现从“看数据”到“得结论”的闭环。

听众收益:
1. 一套范式:可直接复用的“音频仿真样本工厂”建设方案,解决IoT数据稀缺难题。
2. 硬核方案:“机械臂+灯箱”扫码自动化及“多模态端到端盒子”架构参考,提高视觉样本构造效率以及验证效率。
3. 一种方法:利用多模态大模型“去噪存真”的智能分析新思路,解决误报顽疾。
4. 效能实证:见证“小团队+AI”如何在3周内构建高频自动化平台,少走弯路。

蚂蚁集团智能穿戴业务高级测试开发工程师,目前主要负责智能穿戴业务的质量体系建设,算法评测,自动化工程建设等,保障眼镜,手表,车机等智能终端上的支付宝产品的高可用性,稳定性;及AITestOps平台、体验测试平台,保障算法评测的充分度以及评测效率,提升产品的支付体验。毕业后曾就职于微软和阿里体育,从事UI自动化,质量中台开发,视觉算法评测等工作。
生产问题治理体系构建与智能化实践
李佳佳
中国平安质量管理团队 测试专家、寿险科技SEPG组织专家
内容简介:
本议题基于平安寿险生产问题治理实践,系统阐述覆盖"快速感知-及时止损-深度复盘-长效改进"的全周期治理体系。通过生产缺陷定级标准(P1-P7)、线上问题review十问、多维度问题根因分析(程序缺陷/非程序缺陷)、全渠道问题感知机制等创新方法,结合质慧平台与AI技术应用,实现问题治理的量化追踪与改进措施落地。重点分享典型案例复盘经验、漏测逃逸率下降35%的实践成果,以及2026年智能化治理规划,为金融行业提供可复用的质量管理解决方案。        

演讲提纲:
1. 背景与痛点
难以看清终端交付质量
难以管理开发交付质量
难以有效分配测试资源
难以挖掘复制经验教训
 2.问题治理全景图
 生产缺陷定级标准(资金损失、业务中断等6维度)
 治理闭环机制:从问题发现到改进措施追踪
 全渠道感知体系:主动(监控/生产体验/自主发现)与被动反馈(微信/ITSM/小蜜蜂)
3.智能分析实践
 平台问题录入智能评分:智能判定问题还原程度
 智能判定问题是否属于漏测:减少主观漏测误判
 漏测逃逸率下降48%的实战策略(自动化监控补充+生产用例完善)
4.未来规划
AI驱动的智能复盘:大模型辅助根因分析与改进措施建议
自动化监控升级:生产环境监控分级机制
质量文化沉淀:典型案例共享机制与研发质量赋能

听众收益:
1.掌握金融级生产问题定级与根因分析方法论(含P1-P7分级标准)
2.学习漏测逃逸率下降48%的实战改进策略(自动化监控+复盘SOP)
3.获得智能质量平台建设的参考架构(质慧平台+AI评价体系)
负责平安人寿个险领域C端业务线的质量保障工作,承担寿险科技生产问题治理工作,通过系统化问题复盘与机制建设,长效推动研发流程优化与产品质量持续提升,在质量保障与效能改进方面具备丰富实践沉淀。
15年质量领域老兵,专注研发全流程质量保障体系建设 。
京ICP备2020039808号-4 京公网安备11011202100922号