内容简介:
针对智算万卡集群日志量大、故障模式复杂的痛点,我们构建了异常日志压缩、RC上下文推理等一系列专业算法,还原故障传播路径并推导故障根因;在科大讯飞X1、黑龙江移动等局点的验证中准确率80%+,原先依赖专家定位数小时的疑难问题缩减至10分钟内自动诊断,大幅降低故障恢复时长,用AI管AI的运维理念获客户认可。
演讲提纲:
1. 背景与挑战:痛点一:智算万卡集群日志量大;痛点二:故障模式复杂
2. 核心技术方案:
2.1 专业算法体系:异常日志压缩算法,RC上下文推理算法,其他系列专业算法
2.2 智能诊断能力:还原故障传播路径,推导故障根因
3. 实际应用效果
3.1 验证局点:科大讯飞X1
3.2 关键效果:准确率:80%+,诊断时效:数小时 → 10分钟内,效率提升:自动诊断替代专家定位
3.3 实际CASE
4. 价值与成果
大幅降低故障恢复时长;创新理念:""用AI管AI""的运维模式;获得客户高度认可
听众收益:
1. 了解智算集群故障诊断的相关知识
2. 了解如何通过智能的方式,提高故障诊断效率
3. 了解到大模型搭建Agent的范式,可以泛化到其他领域
清华大学计算机博士,研究方向聚焦深度学习在AIOps中的创新与应用。入职后持续在AIOps领域深耕,将前沿AI技术引入ADN业务场景,解决故障领域痛点问题,主导智算故障Agent、北向智能体、智能北斗等多个智能体创新项目,RC上下文推理、API自动生成、服务流量还原等关键算法技术已落地商用。