内容简介:
业务痛点:1.业务持续增长,生产环境准确率不清晰;2.问答准确率运营人工分析效率低,无法全量分析生产用户问;3.跟业界模型对比未工程化和系统化,无法给出具体体验差距,缺乏众测对比平台;
测试痛点:如何构建有公信力的评测集(如何引流生产有效用户问做为测评集和生成性能压测模型)?如何判定结果正确性?上线要求如何评估充分性?如何获取、分析运营阶段的真实用户问题?
通过构建双循环:1.研发内层数据飞轮;2.蓝军客户外层数据飞轮来解决上述痛点,通过数据飞轮卷积各角色共同针对具体全量现网准确率、全量badusecase、体验偏低模块进行改进,快速闭环业务痛点,在过程中积累测评流资产、运营流资产、知识流资产。
关键技术如下:
1.AI大模型引流&数据清洗技术
2.裁判大模型判定技术;
3.AI蓝军盲测判定技术;
4.AI性能压测模型生成技术;
演讲提纲:
1.业务痛点;
2.测试痛点;
3.AI大模型引流&数据清洗技术
4.裁判大模型判定技术;
5.AI蓝军盲测判定技术;
6.AI性能压测模型生成技术;
听众收益:
1.如何构建具有公信力的测评集,使得研发测试评估准确率跟生产保持一致,偏差为5%,提升评测效率。
2.LLM大模型产品如何利用数据飞轮来评测测试充分性,积累测评流资产;
3.准确度量现网准确率、baduscase、产品模型与业界模式差异,提取共性问题能力和实践,基于薄弱点快速闭环改进,提升产品质量和评测效率;
GTS 测试专家,一直从事GTS AI 大模型产品 评测系统能力构建和评测系统开发,GTS LLM辅助测试设计能力构建;构建了LLM辅助测试设计系统和LLM 大模型产品评测系统。系统推广到了其他产品线进行应用和落地。构建了LLM大模型产品测试方法论,从评测集构建、评测提单如何落地、评测评估出口、上线运营快速闭环的实践价值资产输出。