AiDD研发数字峰会

测试生成与智能测试工具

论坛聚焦大模型和智能体驱动的测试生成技术与智能测试工具创新。深入探讨自动化测试用例生成——从需求自动生成测试场景到脚本的自动生成。剖析智能测试工具核心能力：测试脚本自愈、测试工具调度、自主视觉UI测试的执行等。汇聚测试专家与工具开发者，分享测试生成最佳实践与智能工具链构建经验。

出品人：朱少民

同济大学特聘教授、CCF杰出会员、软件绿色联盟标准评测组组长，近三十年来一直从事软件测试、质量管理等工作，先后获得多项省、部级科技进步奖，已出版了二十多部著作和4本译作，代表作主要有《软件工程3.0》、《软件测试方法和技术》、《全程软件测试》、《敏捷测试》等，并经常在国内外学术会议或技术大会上发表演讲，曾任思科（中国）软件有限公司QA高级总监、IEEE ICST2019工业论坛主席、IEEE ICST、QRS、DAS等国际学术会议的程序委员、《软件学报》审稿人等。

《软件工程 3.0》作者/CCF 杰出会员/AiDD 技术委员会成员

人+AI协同，基于Agentic的测试闭环实践探索

刘涌

华为测试专家

内容简介：

介绍华为光产品线在AI辅助测试领域的实践，重点围绕Agentic测试体系构建；面临版本交付快、测试效率不足等挑战。通过SDT（Spec Drive Test）模式，建立了测试E2E Agent、测试设计Agent、测试代码Agent和测试执行Agent四大核心能力，实现从需求解析到测试代码生成的自动化流程；通过AI Agentic方式测试代码生成准确率显著提升。后续将重点完善数据知识工程和Harness工程，持续优化技能库并推广优秀经验。

演讲提纲：
1. 背景与挑战
2. Agentic测试总体开展思路
2.1 undefined 测试E2E Agent
2.2 undefined 测试代码Agent
2.3 undefined 测试设计Agent
2.4 undefined 测试执行Agent
3. 当前存在的问题及GAP
4. 下一步方向

听众收益：
1. 技术方案参考：提供从需求分析到测试执行的完整E2E Agent解决方案，涵盖测试设计、代码生成、执行分析等关键环节
2. 效率提升方法：介绍如何通过"人+AI"协同模式提升测试自动化率，解决当前自动化率低与全量测试要求的GAP问题
3. 问题规避指南：分享代码生成、动态调测等环节的优化经验和踩坑案例，帮助避免重复错误

华为ICT测试分委会测试工程与自动化专业组组长，光产品线产品系统测试专家；长期从事测试设计及测试工程与自动化相关工作；当前主导光产品线自动化及AI辅助测试相关工作。

基于OpenClaw框架的全过程测试平台建设

桂彬

美团测试专家

内容简介：

本次分享介绍美团服体质效中心基于 OpenClaw 框架的测试智能体—核心设计理念是从"人驱动工具"到"智能体自主执行"的质变。构建单主 Agent + 多专项子 Agent 按需调度架构，从需求缺陷前置拦截、智能用例生成，到代码缺陷检测与 AIFix，再到GUI 全链路自主执行-融合知识图谱、Accessibility Tree、QScore 评分、Reflexion 反思自愈与 MemGPT 分层记忆，使智能体具备自适应与持续进化能力。结合落地实践与未来展望，探讨测试体系迈向"智能体驱动"的演进路径。

演讲提纲：
1. 背景
1.1 AI 测试的战略判断与布局
-2022 年底，ChatGPT 的发布引发了大模型的广泛关注与应用热潮。服体质效中心做出前瞻判断：AI 测试将成为软件工程的必然演进方向
-其价值不仅是""人力替代""，更是测试效能的质变——测试覆盖率的系统性提升、缺陷预防的左移、以及边际成本的持续下降
-质效中心主动布局，先于研发 AI 生码趋势，提前推进 AI 测试能力建设
1.2 演进路径：从工具链建设到智能体落地
-2023年：建设""大模型 + Prompt 工程""为核心范式的多维度 AI 测试工具链，形成可复用的 AI 测试基础设施
-2024年：MCP 协议 + Chatbot 形态，服体技术部完成了规模化落地验证了 AI 测试的实际价值
-2025年～2026年初：团队进一步演进至基于 OpenClaw 框架的 Agent 形态，能够自主规划任务、调用工具链、感知执行结果并动态调整策略。并左移至研发阶段
2. 整体方案
2.1 核心设计理念
-从""人驱动工具""到""智能体自主执行""的质变，三年演进的核心命题，不是用 AI 提速，而是用智能体重塑质量生产方式
-全流程覆盖：一套智能体框架，贯穿需求 → 开发 → 测试全链路，支持vibe Coding、SpecCoding等模式
-多样的产品形态：以大象 App 为主交互入口，测试智能体以""虚拟员工""形态无缝融入研发日常；支持 CI/CD 流水线自动触发、IDE 插件本地集成、chatBot、MCP 协议对接及 Skill 扩展等多种接入方式，开发与测试同学无需切换工具，质量守护随处发生。
2.2 基于 OpenClaw 智能体的测试架构全景
-整体架构以单一主 Agent + 多专项子 Agent 按需调度为核心设计模式，贯穿需求、设计、开发、测试全流程
-各模块协作关系：各专项 Agent 通过 OpenClaw 的机制实现隔离调度，共享统一的工具调用层，通过标准化消息协议传递上下文，确保跨模块协作的一致性与可追溯性。
3. 技术实践
3.1 需求缺陷检测
基于 LLM 对需求文档做语义分析，接入研发流程：需求评审阶段自动触发检测，缺陷在需求阶段拦截，避免带病进入开发
3.2 智能用例生成
从需求文档/接口定义自动生成测试用例，覆盖正常流、异常流、边界值，支持增量更新：需求变更自动同步用例
3.3 AI 缺陷检测 & AIFix
-AI 缺陷检测：代码提交后自动触发，多维度扫描潜在缺陷，覆盖逻辑错误、边界异常、安全风险等
-AIFix：检测到缺陷后自动分析根因，生成修复建议，支持一键采纳
-两者联动：检测发现 → 智能修复 → 验证闭环
3.4 基于OpenClaw的GUI测试智能体（重点介绍）
以下模块构成 GUI 测试智能体的完整工作闭环：
-文本用例生成 → GUI 自动化执行 → 报告与缺陷提报 → 自动评测 → 反思与进化 → 记忆系统
-案例讲解
3.5 落地成效
-整体收益：测试全流程向""智能体驱动""迈出实质性一步
-踩坑与经验：真实落地过程中的挑战与解法
4.未来展望
4.1 横向扩展：智能体能力向性能测试、安全测试等方向延伸
4.2 产研测一体化：质量保障不再是测试团队的单点职责，而是融入研发全流程自动发生
4.3 终极目标：开发提交代码，质量智能体全程守护，测试人力聚焦高价值判断

听众收益：
1. 掌握智能体驱动的全流程自动化测试体系
学习如何利用 OpenClaw 智能体构建高效、智能、自动化的全过程测试体系。
2. 掌握智能GUI测试的实操方法
学习基于 OpenClaw 智能体的 GUI 测试框架，掌握实战技巧，实现端到端自动化测试。

深耕美团智能服务领域质量保障工作，在测试平台工程建设与研发效能提升方面积累了丰富的实战经验，持续探索 AI 与测试的深度融合，在 AI 测试能力方向有深度实践与技术沉淀。

货拉拉UI自动化新范式：从人工维护到AI自愈

胡嘉椿

货拉拉资深测试工程师

内容简介：

本次分享将介绍货拉拉质量团队在「AI+UI自动化」方向的实践探索：利用AI大模型介入UI自动化测试，识别页面异常和元素变更，自动修复脚本，提升脚本稳定性和维护效率。

演讲提纲：
1. 背景&挑战
在货拉拉App的UI自动化测试中，我们面临的核心挑战是：如何让自动化脚本在“多端+多品牌+高频迭代”的复杂场景下保持高鲁棒性？具体痛点包括：
- 脚本规模超1.8万条，App双周迭代导致脚本频繁失效，维护成本线性增长；
- 弹窗碎片化严重（权限/通知/合规/厂商定制），传统规则引擎难以泛化识别，用例中断率高；
- 文案微调、布局变更后测试中断，基于单一定位策略的脚步脆弱；
- 失败根因定位依赖人工经验，诊断链路长，问题修复效率低；
2. AI自愈目标&方案
2.1构建“感知-诊断-决策-执行”构建多模态融合（截图+OCR+DOM+控件画像）的精准感知能力和自愈能力；
2.2详解「控件画像+五步分层诊断」创新设计（设备→框架→弹窗→页面→元素，每步输出结构化决策），实现「可解释、可追溯、可干预」的精准定位，实现结构化决策输出与步骤级精准重试；
3. AI自愈能力构建
3.1分享弹窗智能处理的方案：弹窗知识库特征建模方式；
3.2文本语义比对、元素重定位等核心模块的落地细节；
3.3控件的「数字身份证」约束大模型泛化的工程技巧：「类型+结构+上下文」三维特征约束大模型泛化，提升判定准确性与跨版本复用能力。
4. 实践效果&收益
分享UI自动化AI自愈在货拉拉各业务线落地情况。
5. 未来展望
未来AI自愈能力的建设方向。

听众收益：
1. 经过验证的落地方法论
货拉拉1.8万+脚本、3个月实战打磨的「AI+UI自动化」新范式，从痛点分析→架构设计→模块拆解→效果验证，完整闭环可直接参考复用。
2. 核心能力的实战技巧
弹窗智能处理：如何用VL大模型+特征建模，泛化识别多品牌/多系统弹窗，降低用例中断率。
文本/元素自愈：多模态融合（截图+OCR+DOM）+控件画像，从「单特征匹配」升级为「语义+空间」联合判定。
3. 关键创新的工程化思路

先后就职于魅族、平安、阿里巴巴、货拉拉，一直从事移动端质量效能建设与探索。

ai4test在轨道交通（高铁）领域的应用

黄旺

中车株洲电力机车研究所

软件测试部部长

内容简介：

在轨道交通、新能源及工业控制等众多领域，特别涉及功能安全和精密制造的环节，对系统的可靠性和质量提极高的要求，同时对于效率也提出高要求。基于功能安全的传统瀑布模型下通过增加人员、对人员进行分级来提高效率和质量，但人员不可能一直增加，因此有一定的局限性，在此背景下，引入AI4Test理念、工具及流程，无缝融入瀑布模型下，实现效率和质量提升。

演讲提纲：
1. 引言：挑战与机遇
1.1 行业特殊性：
-高安全、高可靠、高复杂：举例轨道交通（牵引传动控制、列车网络控制、人机交互系统）与储能系统（BMS、PCS、EMS）软件的非功能性需求极致严苛。
-长生命周期与严格合规：需遵循EN 50128、ISO 26262（汽车相关）、IEC 61508等安全标准，需求变更与版本迭代的测试回归压力巨大。
-系统耦合复杂：涉及硬件在环（HIL）、软件在环（SIL），测试环境搭建成本高、用例设计维度多。
1.2 传统测试的瓶颈：
-需求分析依赖人工，易遗漏、歧义。
-测试设计高度依赖专家经验，难以全面覆盖复杂场景和异常路径。
-用例与脚本编写重复劳动多，效率低下。
-自动化脚本维护成本高，随需求变更频繁失效。
1.3 AI带来的变革机遇：
-大语言模型（LLM）在自然语言理解、逻辑推理、代码生成方面的突破。
-AI辅助测试的核心价值：提升测试活动各阶段的效率、覆盖率、深度和智能化水平，将专家经验产品化。
2. AI辅助测试平台整体设计愿景
2.1 平台定位：一个端到端、人机协同的智能测试工作流平台，深度嵌入轨道交通及储能产品研发V模型。
2.2 核心目标：
-需求质量左移：在需求阶段即发现模糊、矛盾、可测性差的问题。
-测试设计智能化：自动生成高覆盖、符合安全标准的测试方案。
-资产自动生成： “需求 -> 设计 -> 用例 -> 脚本”的自动化流水线。
-知识持续沉淀：形成领域特定的测试知识库与模型。
2.3 总体架构图：
-数据层：需求文档库、行业标准库、历史用例库、缺陷库、领域知识图谱。
-AI引擎层：微调/提示工程优化的领域大模型、测试设计模型、脚本生成引擎。
-应用层：四大核心功能模块（对应主体内容）。
-执行层： ETest等自动化调度工具、CI/CD流水线。
-反馈层：结果分析、模型优化、知识库更新闭环。
3. 平台核心模块详细设计
3.1 AI驱动的需求分析与智能评审
输入：自然语言书写的PRD、软件需求规格说明书、接口文档、安全标准文档。
-AI处理流程：
* 领域知识增强：将轨道交通（如牵引系统、列车网络）和储能（如充放电策略、故障保护）的术语、规则、标准注入模型上下文。
* 一致性检查：跨文档条款矛盾、术语不一致。
* 完整性检查：识别缺失的需求项（如异常处理、边界条件）。
* 可测性分析：标注模糊、不可验证的需求描述（如“系统应快速响应”）。
* 安全合规性初筛：关联安全标准条款，提示潜在合规需求。
-输出：
* 结构化需求摘要：将自然语言需求转为结构化的条目。
* 智能评审报告：列出潜在问题、矛盾点、改进建议，并给出置信度评分。
* 初始测试关注点：自动提取关键测试项，如功能点、性能指标、安全场景。
* 价值：将需求评审从“人工开会”变为“AI预审+专家聚焦”，提升评审效率与质量。
3.2 AI辅助的测试设计与思维导图生成
-输入：上一步输出的结构化需求、测试关注点。
-AI处理流程：
* 测试策略推荐：根据需求类型（功能、性能、安全、可靠性）推荐测试方法（HIL、SIL、故障注入等）。
* 测试模型构建：基于等价类、边界值、场景法、状态迁移图等，结合领域逻辑自动生成测试模型。
-思维导图（Xmind）生成：
* 根节点：产品/模块名称。
* 一级分支：测试类型（功能测试、集成测试、系统测试、安全测试）。
* 二级分支：功能模块/需求项。
* 三级及以下分支： AI自动生成的测试场景、测试条件、输入/输出概要、预期结果纲要。
* 节点属性：自动关联需求ID、优先级、测试方法。
* 人机交互：测试工程师可在Xmind中直接对AI生成的导图进行拖拽调整、合并、细化、补充，交互过程持续反哺AI模型。
-输出：一个结构清晰、覆盖核心场景的.xmind测试设计文件。
3.3 AI测试用例生成
-输入：精修后的测试设计思维导图、详细的接口/协议规范（如CAN、MVB、61850、Modbus）。
-AI处理流程：
* 场景实例化：将思维导图中的抽象场景转化为具体的测试用例步骤。
* 数据填充：根据边界值、等价类自动生成有效的、无效的、边界性的测试输入数据。
* 预期结果细化：结合需求，生成明确、可判定的预期结果（包括中间状态和最终输出）。
* 用例结构化：生成标准字段：用例ID、标题、前置条件、步骤、测试数据、预期结果、优先级、关联需求。
-输出： Excel/CSV/JSON/YAML格式的测试用例集，可直接导入测试管理工具（如TestLink、Jira、Xray）。
3.4 AI测试脚本生成
-输入：测试用例集、被测系统接口/协议规范、目标自动化框架说明（如Pytest + 自定义硬件通信库）。
-AI处理流程：
* 模板匹配：根据测试类型（API测试、协议测试、GUI测试）选用相应的脚本模板。
* 逻辑转换：将自然语言描述的测试步骤转换为编程逻辑。
-代码生成：
* Python脚本：生成基于Pytest的测试函数/类。包含：设备初始化、测试数据参数化、协议报文构建（如CANdb描述）、激励发送、响应监听与解析、断言逻辑、清理步骤。
* Shell脚本：生成环境部署、服务启停、日志抓取、文件传输等运维类脚本。
* 代码优化：添加必要的注释、异常处理、日志记录，确保代码可读性和健壮性。
* 输出：可直接在相应环境中运行或稍作适配的Python .py文件和Shell .sh文件。
3.5 自动化调度与执行
-输入：生成的测试脚本、硬件资源配置文件、测试任务调度计划。
-平台集成设计：
* 脚本适配器：将AI生成的通用脚本，通过轻量适配层，封装成符合ETest测试架构建模规范的“测试部件”。
* 资源管理：平台统一管理控制器、板卡、仿真模型等资源。
* 任务编排：在平台界面或通过API，将测试用例与资源绑定，编排测试序列和依赖关系。
* 调度执行：一键触发或定时触发自动化执行测试任务，实时监控执行状态。
-结果回收与分析：
* 收集测试脚本返回的原始执行日志、报告。
* AI结果分析：对失败用例进行初步根因分析，归类失败模式（环境问题、脚本缺陷、真实缺陷），辅助工程师快速定位。
* 输出：统一的测试报告、缺陷记录（自动提交到Jira等缺陷管理系统）、测试覆盖率报告。
4. 实践案例与成效
案例一：储能系统BMS通信协议一致性测试
* 背景：新国标发布，需对上百条BMS与PCS间的CAN协议报文进行测试。
* AI应用：输入国标文档，自动生成协议测试思维导图->测试用例->Python CANoe/CANape测试脚本。
* 成效：脚本生成时间从2人周缩短至2小时，覆盖率提升至100%。
案例二：牵引传动控制系统（TCU）功能变更回归测试
* 背景：某项HMI显示逻辑变更，需评估影响范围并执行回归测试。
* AI应用：输入变更的需求描述，AI自动分析影响链路，从用例库中筛选并生成增量测试脚本。
* 成效：回归测试范围确定时间从1天缩短至10分钟，避免遗漏关键关联功能。
5. 挑战、思考与未来展望
当前挑战：
* 模型幻觉与准确性：需建立“生成-审核-反馈”机制，确保AI输出可信。
* 领域数据稀缺：构建高质量的轨道交通/储能测试语料库是成败关键。
* 工具链集成深度：与现有需求管理、测试管理、自动化工具的深度融合。
未来展望：
* 自主演进：平台基于执行结果和缺陷数据，自动优化测试模型与用例。
* 智能缺陷预测：结合代码变更和需求特性，预测高风险模块，实现精准测试。
* 数字孪生测试：与系统仿真模型深度结合，在虚拟空间中完成更复杂、更安全的测试。

听众收益：
1. 了解中车株洲所产业情况，轨道交通装备制造业软件开发、测试及质量管理情况。
2. AI4Test在如何平衡高功能安全等级（SIL2和SIL4）与测试的博弈中的作用。

高级工程师，现任中车株洲所研究院基础中心软件测试部部长、CNAS 软件测评室技术负责人、ISTQB 国际软件测评工程师、工信部认证软件测评高级工程师。长期专注于软件工程和软件测试技术研究，重点研究全生命周期软件测评标准体系设计、智能化测评工具开发，带领团队获取中车系统首个软件测评CNAS资质，推动测评业务向新能源装备、工业控制领域延伸。主持了中车株洲所软件测评实验室建设、软件自动化测试技术研究、软件质量评估技术研究等多个重大核心项目的研发工作。起草 12 项企业标准，涵盖轨道交通、新能源装备等软件测试规范；获 2 项发明专利授权；发表 2 篇专业论文。

AiDD峰会

K+峰会

联系我们