内容简介:
本演讲聚焦于大模型内容安全评估,通过构建一个多语言基准,并基于蜕变关系生成变体数据集,对多个大模型进行评测,评估其在不同安全类别下的表现。该基准涵盖中文与英文两种语言,每种语言均覆盖四个安全领域九个安全类别,支持多维度的安全评测。之后,我们引入蜕变测试作为系统性评估方法。最后通过实验结果与工业场景应用的结果分析展示不同大模型在各类别下的安全表现差异,并验证蜕变测试在发现细微但关键的安全缺陷方面的有效性。
演讲提纲:
1.研究背景与意义
大语言模型已在众多应用场景中广泛部署,但其生成有害或敏感内容的风险仍可能引发严重的安全问题。评估此类风险,亟需高质量的基准数据集与有效的评估方法。
2.提出大模型内容安全分类框架
针对多种内容安全风险,提出一种两层结构的内容安全分类框架。
3.构建大模型内容安全评估基准
基于两层结构的内容安全分类框架,通过数据搜集、清洗等方法构建大模型内容安全评估基准,并对多个大模型开展评测。
4.引入蜕变关系增强内容安全评估基准
定义七种蜕变关系对评估基准的数据进行蜕变,形成七个新的数据集,并进一步对多个大模型进行评测,分析结果。
5.大模型评测结果分析
根据实验与工业场景的实际应用结果,综合评估常见大模型针对不同类别数据的处理能力、使用蜕变关系的效果、大模型参数等指标对数据处理的影响,并通过实例分析直观展示实验结果。
听众收益:
1.了解大模型内容安全评估的分类框架,明确大模型内容安全所包含的具体类别。
2.掌握内容安全评估基准的构建流程,包括数据搜集、转换与标注等方法。
3.理解多种蜕变关系的定义及其在内容安全评估基准上的应用。
北京邮电大学副教授、硕/博士生导师,中国计算机学会(CCF)高级会员、软件工程专委会副秘书长,中国人工智能学会会员,国家自然科学基金同行评议专家。主要从事源代码分析、软件可靠性、人工智能应用的研究,先后主持国家自然科学基金、中国博士后科学基金、CCF绿盟“鲲鹏”科研基金等项目,并作为项目骨干参与了多个国家重点研发计划、国家自然科学基金和其他省部级项目。出版专著《源代码分析》、《面向对象软件工程》、《基于人工智能的测试用例自动生成与测试用例集优化》等。在《软件学报》、《中国科学:信息科学》、EAAI、JCST、JSS、IET Software、KBS及ChinaSoft等期刊和会议上发表论文数十篇,申请和授权专利数十个。