出品人:付求爱
多年智能化研发领域从业经验,带领团队完成多项智能化运维关键能力构建和技术研究,并进行规模化落地和外溢,发表国家专利十余篇,在FSE、ICSE、ASE等行业顶级会议上发表多篇论文;多次在技术峰会上发表主题演讲;在AI辅助研发和AIOps领域具有丰富管理和实践经验。
华为云 AIOps技术专家

智能CI/CD流水线与AIOps

本论坛聚焦AI驱动的软件工程,探讨智能CI/CD与AIOps的核心技术。议题涵盖DesvSecOps安全运维、研发Agent全景实践、AI运维提效以及运维大数据的智能分析等。通过展示从开发到运维的全链路智能化实践,旨在构建高效、可靠、自治的下一代软件交付与运维体系。
去哪儿旅行AI运维提效75%落地实践
李佳奇
去哪儿旅行 基础架构负责人 技术总监
内容简介:
随着AI Agent在公司内快速普及,去哪儿旅行基础架构团队在AIOPS落地了AI巡检、告警智能归因等核心项目,并进行公司级别覆盖,取得了提效75%以上的成果,有力支撑了业务和系统稳定性。本次分享重点在介绍AI巡检、指标血缘分析和告警归因上进行的探索和落地。        

演讲提纲:
1.去哪儿旅行AI OPS落地背景和整体规划
2.AI巡检落地方案和成果
2.1 业务高峰场景巡检痛点和AI巡检方案设计
2.2 AI巡检业务指标和系统指标覆盖方案
2.3 AI巡检业务配置自动化
2.4 AI巡检进一步覆盖到业务变更场景的技术方案和落地
3.告警智能归因落地方案和成果
3.1 指标血缘采集和分析方案
3.2 指标血缘分析的几种典型结果和价值:上下游关系、总分关系、因果关系
3.3 AI结合血缘指标分析结果提升线上问题定位效率案例实践
4.经验总结与未来展望        

听众收益:
1.通过本次分享,听众将了解AI OPS的机会点和规划设计
2.了解AI OPS在巡检、告警归因两个具体场景的落地案例和方案        

去哪儿旅行技术总监,基础架构负责人,技术中心TC委员、业务架构SIG负责人、负责基础架构部门,在公司推广AI智能体落地。10余年OTA一线研发经验,在高并发高可用系统建设、DDD项目落地、业务域系统价值度量、线上系统防腐治理等领域有代表性作品。在众多专业峰会担任出品人和讲师,和AZone架构院、K+Talk等合作推出线上课程和直播。
构建AI原生研发闭环:贝壳产研提效Agent全景实践
项 旭
贝壳找房研效中心高级技术总监
内容简介:
本演讲将分享贝壳如何通过自研的四大AI Agent(Moma, CodeLink, LinkSpace,EasyQ)构建端到端的AI驱动产研工作体系。我们将深入探讨每个Agent在需求设计、代码生成、测试用例设计及团队协作中的具体落地场景、带来的效能提升指标以及实践中遇到的挑战与解决方案。为听众提供一个可参考、可落地的AI产研提效全景图。        

演讲提纲:
1.引言:产研提效的下一站——Agent协同智能
2.四大智能Agent的落地实践与深度解析
3.挑战与进化:AI落地过程中的思考
4.未来展望:构建自我进化的智能研发组织

听众收益:
1.获得一套可落地的AI Agent全景实施蓝图: 听众将深入了解如何将AI智能体(Agent)从单点工具应用,扩展为覆盖需求、开发、测试、协同全流程的协同网络,并获得经过实践验证的架构思路与集成方法,为自身企业的研发智能化转型提供清晰路线图。
2.学习如何量化AI提效的真实价值并规避常见陷阱: 通过分享真实的效能提升指标和实践中遇到的挑战帮助听众建立科学的评估体系,并提前规避AI落地过程中的风险,确保投资回报率。
3.启发对研发团队未来形态的思考: 了解AI Agent如何重新定义开发者、测试工程师和项目经理的角色与协作方式,从而提前规划团队技能升级与组织结构调整,更好地拥抱人机协同的研发新范式,保持竞争优势

在研发效能提升及相关技术领域深耕多年,曾任职于腾讯,现贝壳找房,一直致力于以AI驱动+系统化+数据驱动的方式全面提升研发效率与工程质量,主导多项企业级研发效能基础设施核心产品的设计与落地,其中,CodeLink平台通过国家首批智能编码认证,技术实力获权威认可。并深度参与行业建设,推动flame-code-vlm模型开源,发布多栈技术白皮书,参与软件工程行业标准制定。
智算集群故障诊断算法研究与实践
陈文潇
华为 技术专家
内容简介:
针对智算万卡集群日志量大、故障模式复杂的痛点,我们构建了异常日志压缩、RC上下文推理等一系列专业算法,还原故障传播路径并推导故障根因;在科大讯飞X1、黑龙江移动等局点的验证中准确率80%+,原先依赖专家定位数小时的疑难问题缩减至10分钟内自动诊断,大幅降低故障恢复时长,用AI管AI的运维理念获客户认可。        

演讲提纲:
1. 背景与挑战:痛点一:智算万卡集群日志量大;痛点二:故障模式复杂
2. 核心技术方案:
2.1 专业算法体系:异常日志压缩算法,RC上下文推理算法,其他系列专业算法
2.2 智能诊断能力:还原故障传播路径,推导故障根因
3. 实际应用效果
3.1 验证局点:科大讯飞X1
3.2 关键效果:准确率:80%+,诊断时效:数小时 → 10分钟内,效率提升:自动诊断替代专家定位
3.3 实际CASE
4. 价值与成果
大幅降低故障恢复时长;创新理念:""用AI管AI""的运维模式;获得客户高度认可        

听众收益: 
1. 了解智算集群故障诊断的相关知识
2. 了解如何通过智能的方式,提高故障诊断效率
3. 了解到大模型搭建Agent的范式,可以泛化到其他领域        

清华大学计算机博士,研究方向聚焦深度学习在AIOps中的创新与应用。入职后持续在AIOps领域深耕,将前沿AI技术引入ADN业务场景,解决故障领域痛点问题,主导智算故障Agent、北向智能体、智能北斗等多个智能体创新项目,RC上下文推理、API自动生成、服务流量还原等关键算法技术已落地商用。
京ICP备2020039808号-4 京公网安备11011202100922号