智能系统的运维与运营

论坛聚焦基于LLM+Agent的AI原生应用系统,探讨新型智能系统的运维与运营突破。深入剖析Agent决策追踪、对话质量监控、成本与效果平衡、prompt工程迭代等工程化挑战。探讨智能运营核心:任务成功率度量、用户反馈闭环、持续优化机制。汇聚LLMOps先行者,分享AI应用全链路可观测性与精益运营最佳实践。
出品人:温希道
美国匹兹堡大学博士,清华大学计算机系博士后,长期深耕机器学习、深度学习及大模型在智能运维(AIOps)领域的研究与工程落地,已发表学术论文及专利40余项。他兼具学术研究、创业实践与大型科技企业的多重视角:既有在初创公司从0到1实现技术突破的实战经验,也有在大型企业主导可观测性与AIOps体系化建设及规模化落地的持续实践,致力于推动智能运维技术的创新与产业应用。
阿里云 可观测高级算法专家
AgentOps:多智能体系统运维新方向
裴昶华
中国科学院计算机网络信息中心 
副研究员
内容简介:
Agentic AI系统因灵活性强、搭建门槛低等优势,在科研与产业领域备受关注。然而,当前智能体系统普遍面临稳定性不足、安全性存疑等问题,成为制约其规模化应用的核心瓶颈。在此背景下,一套全面、系统的智能体系统运维方案已成为行业迫切需求,本报告讲重点涵盖AgentOps(Agent System Operations),并对其四大核心阶段(监控、异常检测、根因分析、故障消除)进行定义与可用方法介绍,系统的综述现有多智能体系统可能存在的异常和故障类型,并探讨可落地的技术方向。

演讲提纲:
1. 智能体运维AgentOps的诞生和定义
AgentOps的诞生是依托于智能体系统的崛起,其主要是为了解决智能体系统中智能体内部的规划、推理、记忆管理以及智能体之间的通讯等异常检测,故障分析和安全围栏的建立。
2. AgentOps和传统智能运维的关联关系
讲述AgentOps和AIOps的区别,从可观测性到异常检测,以及根因定位和故障修复,各有自己的关注点和优劣势。
3. 现有AgentOps在智能体异常监测和故障根因分析的手段和算法
分享现有学术界前沿的智能体异常检测和故障分析算法,对比他们取得的进展。算法涉及who&when,famas,LLM-as-a-judge等多个方向
4. 落地AgentOps的实践路径
要原生而不是打补丁,要内置而不是外挂,可信度要可观测,要尽早建立可观测性标准
5. AgentOps值得投入的方向
讲述随着OpenClaw的崛起,Agent除了本身的执行可靠性,还有哪些值得投入的方向,涉及skills的可信度评估,系统本身的安全风险评估,领域严肃任务的安全围栏。

听众收益:
1. 了解智能体运维新方向:智能体可能会出哪些问题,怎么识别这些可能出现的问题?
2. 了解如何定位分析智能体出现故障的原因
3. 了解如何在严肃领域开发部署和应用智能体        

中国科学院计算机网络信息中心副研究员,博士生导师,学位评定委员会委员,中国科学院“百人计划”引进青年人才,从事智能运维、AI for Networking交叉学科研究,相关成果获得MIT Technology Review 和Hacker News报道,在SIGCOMM, ICML, FSE, WWW, SIGKDD, SIGIR, INFOCOM等国际会议上发表论文50余篇。获得2019、2023、2025年最佳论文奖及提名,CIKM 2019论文成为CIKM历史引用量排名前三的论文之一。担任中国计算机学会2024(第七届)CCF国际AIOps挑战赛程序委员会主席,承担国家重点研发计划青年科学家等项目。
大模型在智能运维场景中的初步探索
陈鹏飞
中山大学 教授
内容简介:
随着大模型、智能体等人工智能技术的快速发展,各行各业都在如火如荼开展大模型+的运动。智能运维作为企业IT系统的刚需在大模型时代面临新的机遇。本次报告主要分享我们团队在“大模型+运维“方面开展的研究,主要包括:运维大模型、基于大模型的日志分析、告警分析以及基于多智能体运维等工作。初步探索了大模型在智能运维领域的可行性,同时也存在若干问题值得深入思考。        

演讲提纲:
1. 大模型与智能运维的背景。介绍大模型和智能运维的发展路径,传统智能运维在泛化性、可解释性、可执行性等方面的局限迫切需要基于大模型的解决方案。
2. 国内外相关工作。介绍最近几年国内外围绕基于大模型的智能运维开展的研究工作以及一些工业领域的解决方案。
3. 运维大模型。介绍团队在运维大模型构建方面的进展,包括数据准备、模型微调方法以及初步实验结果。
4. 基于大模型的日志分析及优化。介绍大模型在日志生成、日志分析、日志分析加速等方面的最新工作。大模型的引入大大增强了日志分析的能力。
5. 基于大模型的告警分析。运维过程中,系统会出现大量告警,如何利用大模型进行告警压缩,构造关键告警信息,减少运维人员的压力是一个重要话题。
6. 基于多智能体运维。重点介绍多智能体协作运维的范式、性能优化方法、系统实现以及实验验证结果。
7. 若干思考。提出大模型在智能运维领域的一些问题,比如不可重复、成本高、速度慢等问题。

听众收益:
1. 了解大模型驱动的智能运维的前沿进展;
2. 了解大模型在日志分析、告警分析、根因定位等方面的最新进展;
3. 启发后续大模型在智能运维领域的新的探索。
中山大学计算机学院教授,博士生导师,量子计算与软件研究所副所长,广东省大数据分析与处理重点实验室副主任, 广东省杰出青年基金获得者,中山大学逸仙学者。曾获2020年陕西省计算机学会首届优秀博士论文,ACM FSE 2024(CCF A类会议)杰出论文奖,IEEE ISSRE 2022大会唯一最佳论文。主要方向为:分布式系统、操作系统、计算机网络、软件可靠性等。近年来在国际会议如ASPLOS、FSE、ICSE、ASE、WWW、ACM SoCC、IEEE INFOCOM、IEEE DSN等和期刊如IEEE TON、TPDS、TOSEM、IEEE TNNLS、IEEE TDSC等发表100余篇论文。共承担了30余项项目包括国家重点研发计划课题、国家自然基金面上、青年项目、广东省、广州市科技项目。此外,还与阿里巴巴、华为、腾讯、微信、深信服等企业开展了校企合作项目,并且将部分研究成果在企业落地。
华为云AgenticOps探索与实践
付求爱 
华为云AIOps技术负责人
CodeArts代码智能体技术专家
内容简介:
AgenticOps是基于AI Agent+运维自动化技术实现自主响应运维的一种新兴技术,是AIOps的延伸扩展,也是Agent时代运维未来演进方向。本演讲将围绕华为云AgenticOps体系的构建脉络展开,从华为云运维面临的挑战到为什么需要AgenticOps,到如何构建AgenticOps技术,最后会分享当前在华为云内部的落地现状,并对未来进行展望。        

演讲提纲:
1. 华为云AgenticOps体系构建的背景和挑战
1.1 AIOps与AgenticOps的前世今生
1.2 华为云AgenticOps体系构建的背景
1.3 华为云AgenticOps构建面临的挑战
2. 华为云AgenticOps构建思路
2.1 华为云AgenticOps整体构建方案
2.2 关键技术举措
3. 华为云AgenticOps实践效果
3.1 当前实现阶段
3.2 实施效果
4. 总结和展望
4.1 总结
4.2 未来展望        

听众收益:
1. 了解AgenticOps及AIOps的关系及发展脉络
2. 了解华为云AgenticOps构建的核心技术
3. Agent时代,对于运维领域的一些思考和探讨        
在华为公司入职多年,具备丰富的智能化研发领域从业经验,带领团队完成多项智能化运维关键能力构建和技术研究,并进行规模化落地和外溢;发表国家专利二十余篇,在FSE、ICSE、ASE等行业顶级会议上发表多篇论文;在AI编程和AIOps领域具有丰富管理和实践经验。
突破 LLM 的运维能力边界:图驱动多 Agent 协同与因果推演实战
刘贵阳
阿里云(云原生可观测) 技术专家
内容简介:
LLM的推理能力在快速增长,但直接面对EB级的指标、日志和链路数据时,它既看不懂也想不对。我们在阿里云CMS上构建了一套完整的多智能体根因分析系统:用数十个算子将海量数据压缩为Agent可消费的高密度信号(Token降低一个数量级),通过图驱动架构实现多Agent协作推理,并构建了一套数字世界基准环境驱动系统持续进化。本次演讲将分享这套系统的架构设计、演进过程与关键技术决策,以及我们对""模型越强,领域基础设施越有价值""这一判断的工程实证。

演讲提纲:
1. AIOps为什么容易停在Demo阶段
微服务、容器、多云架构交织在一起,故障模式指数级增长,运维数据散落在不同系统里。LLM直接面对EB级原始数据时,处理不了噪声、理解不了碎片化语义、也区分不了相关和因果。我们认为瓶颈不在模型能力本身,而在数据基础设施和因果推理能力的缺失。
2. 数据底座:将EB级数据压缩为Agent可消费的信号
我们搭了三层架构——算子层(数十个算子)做计算,MCP工具层(标准化查询接口)做查询,数据工具化层把两者封装成Agent能直接调用的高层工具。这部分会讲我们怎么区分数据基础设施类算子和效率加速类算子,以及具体的实战案例:百万行日志怎么变成一句结论,海量指标怎么变成一个异常判定,Token消耗降低一个数量级的工程实现路径。
3. 推理体系:从单Agent到图驱动多Agent协作
推理架构经历了多次跃迁,从单体Python一路演进到图驱动的多Agent协作。这是整个演讲的重点——我们会详细拆解如何让多个Agent在实体关联图上做结构化推理,以及怎么保证调查过程中关键证据不遗漏。这个阶段我们有一个重要发现:投资数据底座的结构化标注,效果优于堆砌Prompt规则。
4. 数字世界基准环境:让RCA系统持续进化
根因分析最大的难题是没有标准答案——生产故障不可复现,事后复盘依赖个人经验。我们构建了一套数字世界基准环境来解决这个问题:覆盖数十种故障类型、近百个案例,配备多维度自动化评估体系,能精确定位瓶颈出在哪一层并驱动定向优化。但这只是起点,我们的目标是从静态的案例集演进为红蓝对抗的动态进化环境,最终开源成为AIOps领域的行业评测标准。
5. 技术路线:从关联推理走向因果推理
关联推理只是第一步,我们的目标是因果推理。这部分会讲三级递进的技术路线、主流厂商的做法和局限,以及我们为什么认为模型能力越强,领域基础设施的价值越大。

听众收益:
1. 破解落地瓶颈:获取将LLM接入海量运维数据的工业级工程方案
跳出“直接把日志喂给大模型”的误区,学习一套可落地的数据底座三层架构(算子层-MCP层-工具层)。听众将了解到如何把百万行日志、海量的无序指标,压缩提炼为Agent可直接消费的精准信号,在解决“噪声干扰”的同时实现 Token 消耗数量级的降低。
2. 架构演进实战:掌握“图驱动多Agent协作”的复杂推理系统设计
告别单体Prompt堆砌,深入理解如何利用实体关联图驱动多个 Agent 进行结构化推理与协作。听众将获得一线实战经验:如何设计多Agent协同机制以确保故障根因分析(RCA)时关键证据不遗漏,以及为什么“投资数据底座的结构化标注”比“调优Prompt”带来更大的业务收益。
3. 跨越技术周期:建立AIOps系统的科学评估体系与因果推演认知
根因分析不能仅靠“玄学”和事后诸葛亮。听众将学习如何构建包含多维评估的“数字世界基准环境”,让AIOps系统具备对抗与自我进化的能力;并透过主流厂商的技术局限,洞察AIOps从“关联推理”走向“因果推理”的演进路线,为企业下一代智能化运维规划提供战略参考。
阿里云可观测AIOPS算法开发专家。负责可观测领域的智能化算法和多Agent开发,对指标、事件、文本、链路领域的相关算法开发。参与高性能、低成本的指标检测和预测系统开发;文本模式挖掘;根因分析领域问题研发,致力于 探索LLM在可观测领域的落地路径,探索多Agent模式在可观测领域提效。参与4个国家发明专利,其中2项是主要发明人;多篇可观测领域的论文,发表在ICSE、AAAI、KDD、ASPLOS等CCF-A学术会议。
从 Debug 到治理:
面向 LLM Agent 系统的自动化运维与可信运营实践
康 昱
微软 首席研究员
内容简介:
随着 LLM+Agent 架构被广泛用于真实业务系统,智能系统正从“可用”走向“可运维”。本报告围绕 LLM 多 Agent 系统在真实运行中的运维与运营挑战,结合我们在自动调试(Auto Debugging)与隐私治理(Privacy Mitigation)方面的研究与实践,系统性探讨如何通过 决策过程追踪、运行期介入、真实环境评测与反馈闭环,提升 Agent 系统的稳定性、任务成功率与可信度。报告将分享基于 MCP/A2A 的真实工作流评测方法,以及推理期干预式机制如何在不牺牲效果的前提下显著降低系统性风险,为 AI 原生应用的精益运营提供可落地的方法论。        

演讲提纲:
1. 背景与挑战
 LLM+Agent 系统从对话走向真实行动,带来决策不可观测、失败难归因、风险难评估等新型运维与运营挑战。
2. Agent 运维的新问题定义
 真实系统中的失败往往源于推理偏航、工具误用或多 Agent 协作失配,运维目标需从“模型准确率”转向“任务成功率与系统稳定性”。
3. 介入式自动调试:DOVER
 介绍基于运行期介入的自动调试框架,如何在多 Agent 协作过程中定位失败原因并进行最小侵入式修复。
4. 真实运行中的风险治理问题
 分析 Agent 在实际工具与工作流中面临的隐私与安全风险,以及“判断–行动鸿沟”对系统可信运营的影响。
5. Live 评测与推理期治理实践
 基于 MCP/A2A 的真实工作流评测方法,以及推理期干预机制如何在不牺牲效果的前提下显著降低系统性风险。
6. 面向智能运营的闭环
 总结从调试、评测到治理的闭环方法,为 LLM Agent 系统的可观测性与持续优化提供实践启示。

听众收益:
理解 LLM Agent 系统在真实运行中的核心运维挑战,超越传统离线评测与 Prompt 调优视角
获得可落地的方法论:如何通过运行期干预、自动调试与治理机制提升任务成功率与系统稳定性
学习面向智能运营的实践经验,构建 Agent 系统的可观测性与持续优化闭环
微软DKI(数据、知识、智能)团队的首席研究员,并担任复旦大学计算机科学学院行业硕导及香港中文大学名誉副研究员。他长期专注于人工智能、软件工程与系统架构的交叉研究,致力于通过数据驱动方法为智能云服务提供智能化技术。
他的研究工作涵盖多个重要方向:在云计算智能化领域,他将人工智能、大数据与云计算相结合,针对云环境运行产生的大规模数据研发先进AI技术,推动大模型智能体的研究和应用,特别是针对Cloud和AIOps等领域,解决关键云服务故障管理问题;在代码智能化领域,他专注于将AI技术应用于复杂工程场景,突破代码行级生成,聚焦仓库级任务如代码库多语言翻译、跨平台迁移和全链路自动化调试。通过与微软Azure、M365、Teams、Copilot等产品团队紧密协作,他将多项创新技术融入核心云平台服务,显著提升了开发效率与系统可靠性。
在学术与产业合作方面,他在人工智能、软件工程与系统领域的顶级会议和期刊上发表了多篇论文,与全球顶尖高校及企业保持合作,持续构建其学术与产业影响力。
京ICP备2020039808号-4 京公网安备11011202100922号