智能系统的运维与运营

论坛聚焦基于LLM+Agent的AI原生应用系统,探讨新型智能系统的运维与运营突破。深入剖析Agent决策追踪、对话质量监控、成本与效果平衡、prompt工程迭代等工程化挑战。探讨智能运营核心:任务成功率度量、用户反馈闭环、持续优化机制。汇聚LLMOps先行者,分享AI应用全链路可观测性与精益运营最佳实践。
出品人:温希道
美国匹兹堡大学博士,清华大学计算机系博士后,长期深耕机器学习、深度学习及大模型在智能运维(AIOps)领域的研究与工程落地,已发表学术论文及专利40余项。他兼具学术研究、创业实践与大型科技企业的多重视角:既有在初创公司从0到1实现技术突破的实战经验,也有在大型企业主导可观测性与AIOps体系化建设及规模化落地的持续实践,致力于推动智能运维技术的创新与产业应用。
阿里云 可观测高级算法专家
AgentOps:多智能体系统运维新方向
裴昶华
中国科学院计算机网络信息中心 
副研究员
内容简介:
Agentic AI系统因灵活性强、搭建门槛低等优势,在科研与产业领域备受关注。然而,当前智能体系统普遍面临稳定性不足、安全性存疑等问题,成为制约其规模化应用的核心瓶颈。在此背景下,一套全面、系统的智能体系统运维方案已成为行业迫切需求,本报告讲重点涵盖AgentOps(Agent System Operations),并对其四大核心阶段(监控、异常检测、根因分析、故障消除)进行定义与可用方法介绍,系统的综述现有多智能体系统可能存在的异常和故障类型,并探讨可落地的技术方向。

演讲提纲:
1. 智能体运维AgentOps的诞生和定义
AgentOps的诞生是依托于智能体系统的崛起,其主要是为了解决智能体系统中智能体内部的规划、推理、记忆管理以及智能体之间的通讯等异常检测,故障分析和安全围栏的建立。
2. AgentOps和传统智能运维的关联关系
讲述AgentOps和AIOps的区别,从可观测性到异常检测,以及根因定位和故障修复,各有自己的关注点和优劣势。
3. 现有AgentOps在智能体异常监测和故障根因分析的手段和算法
分享现有学术界前沿的智能体异常检测和故障分析算法,对比他们取得的进展。算法涉及who&when,famas,LLM-as-a-judge等多个方向
4. 落地AgentOps的实践路径
要原生而不是打补丁,要内置而不是外挂,可信度要可观测,要尽早建立可观测性标准
5. AgentOps值得投入的方向
讲述随着OpenClaw的崛起,Agent除了本身的执行可靠性,还有哪些值得投入的方向,涉及skills的可信度评估,系统本身的安全风险评估,领域严肃任务的安全围栏。

听众收益:
1. 了解智能体运维新方向:智能体可能会出哪些问题,怎么识别这些可能出现的问题?
2. 了解如何定位分析智能体出现故障的原因
3. 了解如何在严肃领域开发部署和应用智能体        

中国科学院计算机网络信息中心副研究员,博士生导师,学位评定委员会委员,中国科学院“百人计划”引进青年人才,从事智能运维、AI for Networking交叉学科研究,相关成果获得MIT Technology Review 和Hacker News报道,在SIGCOMM, ICML, FSE, WWW, SIGKDD, SIGIR, INFOCOM等国际会议上发表论文50余篇。获得2019、2023、2025年最佳论文奖及提名,CIKM 2019论文成为CIKM历史引用量排名前三的论文之一。担任中国计算机学会2024(第七届)CCF国际AIOps挑战赛程序委员会主席,承担国家重点研发计划青年科学家等项目。
大模型在智能运维场景中的初步探索
陈鹏飞
中山大学 教授
内容简介:
随着大模型、智能体等人工智能技术的快速发展,各行各业都在如火如荼开展大模型+的运动。智能运维作为企业IT系统的刚需在大模型时代面临新的机遇。本次报告主要分享我们团队在“大模型+运维“方面开展的研究,主要包括:运维大模型、基于大模型的日志分析、告警分析以及基于多智能体运维等工作。初步探索了大模型在智能运维领域的可行性,同时也存在若干问题值得深入思考。        

演讲提纲:
1. 大模型与智能运维的背景。介绍大模型和智能运维的发展路径,传统智能运维在泛化性、可解释性、可执行性等方面的局限迫切需要基于大模型的解决方案。
2. 国内外相关工作。介绍最近几年国内外围绕基于大模型的智能运维开展的研究工作以及一些工业领域的解决方案。
3. 运维大模型。介绍团队在运维大模型构建方面的进展,包括数据准备、模型微调方法以及初步实验结果。
4. 基于大模型的日志分析及优化。介绍大模型在日志生成、日志分析、日志分析加速等方面的最新工作。大模型的引入大大增强了日志分析的能力。
5. 基于大模型的告警分析。运维过程中,系统会出现大量告警,如何利用大模型进行告警压缩,构造关键告警信息,减少运维人员的压力是一个重要话题。
6. 基于多智能体运维。重点介绍多智能体协作运维的范式、性能优化方法、系统实现以及实验验证结果。
7. 若干思考。提出大模型在智能运维领域的一些问题,比如不可重复、成本高、速度慢等问题。

听众收益:
1. 了解大模型驱动的智能运维的前沿进展;
2. 了解大模型在日志分析、告警分析、根因定位等方面的最新进展;
3. 启发后续大模型在智能运维领域的新的探索。
中山大学计算机学院教授,博士生导师,量子计算与软件研究所副所长,广东省大数据分析与处理重点实验室副主任, 广东省杰出青年基金获得者,中山大学逸仙学者。曾获2020年陕西省计算机学会首届优秀博士论文,ACM FSE 2024(CCF A类会议)杰出论文奖,IEEE ISSRE 2022大会唯一最佳论文。主要方向为:分布式系统、操作系统、计算机网络、软件可靠性等。近年来在国际会议如ASPLOS、FSE、ICSE、ASE、WWW、ACM SoCC、IEEE INFOCOM、IEEE DSN等和期刊如IEEE TON、TPDS、TOSEM、IEEE TNNLS、IEEE TDSC等发表100余篇论文。共承担了30余项项目包括国家重点研发计划课题、国家自然基金面上、青年项目、广东省、广州市科技项目。此外,还与阿里巴巴、华为、腾讯、微信、深信服等企业开展了校企合作项目,并且将部分研究成果在企业落地。
高效时序预测:从数值序列到事件文本
邓锦亮
北京航空航天大学 准聘教授
内容简介:
时间序列预测广泛应用于金融、城市运行和国防安全等场景,并常用于实时监测、风险预警和决策支持,因此预测效率具有重要意义。在开放环境下,时间序列不仅依赖历史观测序列,还会受到外部事件持续影响。现有方法通常利用深度模型建模历史序列,并借助大语言模型理解事件文本,但往往在高维表示空间中直接建模复杂信息,计算成本较高。本报告从预测效率的角度出发,分别针对历史序列与事件语义中的冗余结构提出高效建模方法:通过相位编码与原型模式学习压缩数值模式,并通过态势限定空间推理提取预测相关语义信号,从而在保持预测性能的同时显著降低模型规模和训练成本。        

演讲提纲:
1. 背景与痛点:高维建模导致效率瓶颈
诉求:在金融、安全等实时决策场景中,预测效率是模型能否落地的关键。
痛点:现实时序受政策、突发事件等外部影响。现有主流方法依赖大模型在“高维空间”建模,导致参数庞大、推理开销极重。
2. 核心破局点:挖掘数据的“低维结构”
放弃盲目追求更大、更复杂的模型。
转而从历史序列和事件文本两类复杂数据中,提取真正决定未来演化的“低维特征”。
3. 两条互补的技术路线与成效
针对历史序列(数值模式压缩):利用相位编码与原型模式学习来概括重复模式。在保持性能的前提下,大幅压缩约99%的模型参数。
针对事件信息(语义信号提取):通过“态势限定空间推理”,过滤冗余文本,只聚焦上升、下降等少量核心态势。在不牺牲效果的前提下,降低约50%的训练成本。
4. 总结升华:双线合一的高效预测
“数值模式压缩”与“语义信号提取”并非孤立路线,而是面向同一目标的互补思路。两者共同实现了从“高维复杂建模”向“紧凑高效预测”的成功转变。
 
听众收益:
1. 理解开放环境下时间序列预测的新挑战。了解在现实应用中,时间序列不仅由历史观测决定,还会受到外部事件持续影响,从而需要同时建模数值模式与事件语义信息。
2. 掌握提升预测效率的建模思路。通过挖掘数据中的低维结构,提高时间序列预测效率,包括基于相位编码与原型模式学习的数值模式压缩方法,以及基于态势限定空间的事件语义推理方法。
北京航空航天大学计算机学院准聘教授,主持国家高层次海外青年人才项目。2024年于悉尼科技大学澳大利亚人工智能研究中心获博士学位,2024年至2025年于香港科技大学任博士后研究员。主要研究领域包括时空数据挖掘、时间序列分析和城市计算等,研究成果在TKDE、NeurIPS、ICLR、ICDE、KDD等国际会议与期刊发表论文30余篇。
突破 LLM 的运维能力边界:图驱动多 Agent 协同与因果推演实战
刘贵阳
阿里云(云原生可观测) 技术专家
内容简介:
LLM的推理能力在快速增长,但直接面对EB级的指标、日志和链路数据时,它既看不懂也想不对。我们在阿里云CMS上构建了一套完整的多智能体根因分析系统:用数十个算子将海量数据压缩为Agent可消费的高密度信号(Token降低一个数量级),通过图驱动架构实现多Agent协作推理,并构建了一套数字世界基准环境驱动系统持续进化。本次演讲将分享这套系统的架构设计、演进过程与关键技术决策,以及我们对""模型越强,领域基础设施越有价值""这一判断的工程实证。

演讲提纲:
1. AIOps为什么容易停在Demo阶段
微服务、容器、多云架构交织在一起,故障模式指数级增长,运维数据散落在不同系统里。LLM直接面对EB级原始数据时,处理不了噪声、理解不了碎片化语义、也区分不了相关和因果。我们认为瓶颈不在模型能力本身,而在数据基础设施和因果推理能力的缺失。
2. 数据底座:将EB级数据压缩为Agent可消费的信号
我们搭了三层架构——算子层(数十个算子)做计算,MCP工具层(标准化查询接口)做查询,数据工具化层把两者封装成Agent能直接调用的高层工具。这部分会讲我们怎么区分数据基础设施类算子和效率加速类算子,以及具体的实战案例:百万行日志怎么变成一句结论,海量指标怎么变成一个异常判定,Token消耗降低一个数量级的工程实现路径。
3. 推理体系:从单Agent到图驱动多Agent协作
推理架构经历了多次跃迁,从单体Python一路演进到图驱动的多Agent协作。这是整个演讲的重点——我们会详细拆解如何让多个Agent在实体关联图上做结构化推理,以及怎么保证调查过程中关键证据不遗漏。这个阶段我们有一个重要发现:投资数据底座的结构化标注,效果优于堆砌Prompt规则。
4. 数字世界基准环境:让RCA系统持续进化
根因分析最大的难题是没有标准答案——生产故障不可复现,事后复盘依赖个人经验。我们构建了一套数字世界基准环境来解决这个问题:覆盖数十种故障类型、近百个案例,配备多维度自动化评估体系,能精确定位瓶颈出在哪一层并驱动定向优化。但这只是起点,我们的目标是从静态的案例集演进为红蓝对抗的动态进化环境,最终开源成为AIOps领域的行业评测标准。
5. 技术路线:从关联推理走向因果推理
关联推理只是第一步,我们的目标是因果推理。这部分会讲三级递进的技术路线、主流厂商的做法和局限,以及我们为什么认为模型能力越强,领域基础设施的价值越大。

听众收益:
1. 破解落地瓶颈:获取将LLM接入海量运维数据的工业级工程方案
跳出“直接把日志喂给大模型”的误区,学习一套可落地的数据底座三层架构(算子层-MCP层-工具层)。听众将了解到如何把百万行日志、海量的无序指标,压缩提炼为Agent可直接消费的精准信号,在解决“噪声干扰”的同时实现 Token 消耗数量级的降低。
2. 架构演进实战:掌握“图驱动多Agent协作”的复杂推理系统设计
告别单体Prompt堆砌,深入理解如何利用实体关联图驱动多个 Agent 进行结构化推理与协作。听众将获得一线实战经验:如何设计多Agent协同机制以确保故障根因分析(RCA)时关键证据不遗漏,以及为什么“投资数据底座的结构化标注”比“调优Prompt”带来更大的业务收益。
3. 跨越技术周期:建立AIOps系统的科学评估体系与因果推演认知
根因分析不能仅靠“玄学”和事后诸葛亮。听众将学习如何构建包含多维评估的“数字世界基准环境”,让AIOps系统具备对抗与自我进化的能力;并透过主流厂商的技术局限,洞察AIOps从“关联推理”走向“因果推理”的演进路线,为企业下一代智能化运维规划提供战略参考。
阿里云可观测AIOPS算法开发专家。负责可观测领域的智能化算法和多Agent开发,对指标、事件、文本、链路领域的相关算法开发。参与高性能、低成本的指标检测和预测系统开发;文本模式挖掘;根因分析领域问题研发,致力于 探索LLM在可观测领域的落地路径,探索多Agent模式在可观测领域提效。参与4个国家发明专利,其中2项是主要发明人;多篇可观测领域的论文,发表在ICSE、AAAI、KDD、ASPLOS等CCF-A学术会议。
从 Debug 到治理:
面向 LLM Agent 系统的自动化运维与可信运营实践
康 昱
微软 首席研究员
内容简介:
随着 LLM+Agent 架构被广泛用于真实业务系统,智能系统正从“可用”走向“可运维”。本报告围绕 LLM 多 Agent 系统在真实运行中的运维与运营挑战,结合我们在自动调试(Auto Debugging)与隐私治理(Privacy Mitigation)方面的研究与实践,系统性探讨如何通过 决策过程追踪、运行期介入、真实环境评测与反馈闭环,提升 Agent 系统的稳定性、任务成功率与可信度。报告将分享基于 MCP/A2A 的真实工作流评测方法,以及推理期干预式机制如何在不牺牲效果的前提下显著降低系统性风险,为 AI 原生应用的精益运营提供可落地的方法论。        

演讲提纲:
1. 背景与挑战
 LLM+Agent 系统从对话走向真实行动,带来决策不可观测、失败难归因、风险难评估等新型运维与运营挑战。
2. Agent 运维的新问题定义
 真实系统中的失败往往源于推理偏航、工具误用或多 Agent 协作失配,运维目标需从“模型准确率”转向“任务成功率与系统稳定性”。
3. 介入式自动调试:DOVER
 介绍基于运行期介入的自动调试框架,如何在多 Agent 协作过程中定位失败原因并进行最小侵入式修复。
4. 真实运行中的风险治理问题
 分析 Agent 在实际工具与工作流中面临的隐私与安全风险,以及“判断–行动鸿沟”对系统可信运营的影响。
5. Live 评测与推理期治理实践
 基于 MCP/A2A 的真实工作流评测方法,以及推理期干预机制如何在不牺牲效果的前提下显著降低系统性风险。
6. 面向智能运营的闭环
 总结从调试、评测到治理的闭环方法,为 LLM Agent 系统的可观测性与持续优化提供实践启示。

听众收益:
理解 LLM Agent 系统在真实运行中的核心运维挑战,超越传统离线评测与 Prompt 调优视角
获得可落地的方法论:如何通过运行期干预、自动调试与治理机制提升任务成功率与系统稳定性
学习面向智能运营的实践经验,构建 Agent 系统的可观测性与持续优化闭环
微软DKI(数据、知识、智能)团队的首席研究员,并担任复旦大学计算机科学学院行业硕导及香港中文大学名誉副研究员。他长期专注于人工智能、软件工程与系统架构的交叉研究,致力于通过数据驱动方法为智能云服务提供智能化技术。
他的研究工作涵盖多个重要方向:在云计算智能化领域,他将人工智能、大数据与云计算相结合,针对云环境运行产生的大规模数据研发先进AI技术,推动大模型智能体的研究和应用,特别是针对Cloud和AIOps等领域,解决关键云服务故障管理问题;在代码智能化领域,他专注于将AI技术应用于复杂工程场景,突破代码行级生成,聚焦仓库级任务如代码库多语言翻译、跨平台迁移和全链路自动化调试。通过与微软Azure、M365、Teams、Copilot等产品团队紧密协作,他将多项创新技术融入核心云平台服务,显著提升了开发效率与系统可靠性。
在学术与产业合作方面,他在人工智能、软件工程与系统领域的顶级会议和期刊上发表了多篇论文,与全球顶尖高校及企业保持合作,持续构建其学术与产业影响力。
京ICP备2020039808号-4 京公网安备11011202100922号