内容简介:
核心实践与提效表现
1. 智能样本工程:从“人工采集”到“合成数据工厂”
1.1 四大引擎驱动:
- 语义泛化:基于种子语料,自动生成覆盖长尾口音、句式的海量文本。
- 高保真TTS:瞬间转化为多方言、多性别、多语速音频。
- 声学仿真:线性/非线性混合线下噪音(风噪、车流),构建极端压力测试场。
- 共识标注:引入“多模型陪审团”,仅当多模型判定一致时标记为“真值”,替代人工。
1.2 量化收益:
- 效率跃迁:周期从14天 → 0.5天(提升28倍)。
- 成本归零:节省采集标注费数十万元(¥1-6/条),支撑新功能极速上线。
2. 自动化评测执行:软硬协同,重塑物理交互测试
2.1 硬核创新方案:
- 机械臂+灯箱扫码仿真:自研机械臂控制眼镜空间信息,配合可编程灯箱模拟各类二维码/蓝环场景,完美复现“看一眼支付”的物理链路,高效构造眼镜高保真评测图片样本。
- 多模态端到端自动化盒子:集成音频驱动,环境构造,执行与分析的一体化设备,实现“指令下发 - 动作执行 - 结果验证”的全链路无人值守。
- AI辅助平台构建:利用Codefuse/One-day加速平台开发,聚焦业务逻辑而非底层基建。
2.2 量化收益:
- 极致人效:2人,3周完成从0到1全栈平台建设。
- 频率质变:评测频次 1次/月 → 1次/天。
- 执行提速:扫码评测 3人日 → 0.5人日;回归效率 2人日 → 0.5人日。
3. 智能分析与报告:去噪存真,洞察本质
3.1 双重智能策略:
- 多模态场景清洗:针对“误唤起”,结合回流图片(视觉)与对话上下文(语义),精准识别“非支付意图”(如骑行误触),自动剔除误报噪音。
- 报告Agent:自动聚合数据,提炼趋势与风险,统一分析标准。
3.2 量化收益:
- 决策提速:报告产出 3天 → 1天。
- 信任重建:精准锁定“误唤起支付”等真实高危缺陷,消除虚假报警干扰。
演讲提纲:
总体架构:大模型驱动的“软硬一体”智能化评测体系
构建了‘合成数据驱动 - 软硬协同执行 - 智能洞察分析’的全链路智能化评测体系。
1. 数据层(合成工厂):利用大模型泛化生成文本/TTS/噪音样本,结合多模型共识标注,实现数据零成本生产。
2. 执行层(软硬协同):
2.1 软:基于大模型辅助VibeCoding快速构建评测调度平台。
2.2 硬:创新引入“机械臂+灯箱”模拟扫码环境,部署“多模态端到端自动化盒子”,解决物理交互难题。
3. 分析层(智能决策):利用多模态Agent过滤噪音;数据分析Agent自动生成结论,实现从“看数据”到“得结论”的闭环。
听众收益:
1. 一套范式:可直接复用的“音频仿真样本工厂”建设方案,解决IoT数据稀缺难题。
2. 硬核方案:“机械臂+灯箱”扫码自动化及“多模态端到端盒子”架构参考,提高视觉样本构造效率以及验证效率。
3. 一种方法:利用多模态大模型“去噪存真”的智能分析新思路,解决误报顽疾。
4. 效能实证:见证“小团队+AI”如何在3周内构建高频自动化平台,少走弯路。
蚂蚁集团智能穿戴业务高级测试开发工程师,目前主要负责智能穿戴业务的质量体系建设,算法评测,自动化工程建设等,保障眼镜,手表,车机等智能终端上的支付宝产品的高可用性,稳定性;及AITestOps平台、体验测试平台,保障算法评测的充分度以及评测效率,提升产品的支付体验。毕业后曾就职于微软和阿里体育,从事UI自动化,质量中台开发,视觉算法评测等工作。