大咖对话

对话嘉宾

王旭东
蚂蚁集团 高级技术专家
清华大学硕士,2019 年加入蚂蚁集团,目前担任高级技术专家,技术风险部 AI 质量工程团队负责人。团队负责定义 AI 质量标准,管理 AI 特有风险,通过专业方法与平台工程,构建从数据到模型和 AI 应用的全生命周期保障,确保 AI 系统可靠、安全、高效地交付业务价值。

黄立华
华为技术有限公司 GTS测试专家
一直从事GTS AI 大模型产品 评测系统能力构建和评测系统开发,GTS LLM辅助测试设计能力构建;构建了LLM辅助测试设计系统和LLM 大模型产品评测系统。系统推广到了其他产品线进行应用和落地。

蒋学鑫
中兴通讯中心研究院 AI研发提效总体组专家
曾担任操作系统产品部研发经理、项目经理、副部长等职务,带领团队荣获第四届中国工业大奖和第21届中国国际软件博览会金奖,当选中兴通讯青年领军人才。目前负责中兴通讯中心研究院AI研发提效工作。

Talk焦点

- 评测的核心是评测集,怎样建设高质量的评测集,以及高质量如何定义
- “裁判模型”的准确性和公正性
- 评测结果如何快速反馈给模型研发
- 怎样定义一个模型或应用“评测通过,可以上线”的标准
- 评测的“公信力”如何达成共识
- 未来的 AI 测试工程师或质量工程师,需要具备哪些区别于传统测试人员的新技能
京ICP备2020039808号-4 京公网安备11011202100922号