内容简介:
Agentic AI系统因灵活性强、搭建门槛低等优势,在科研与产业领域备受关注。然而,当前智能体系统普遍面临稳定性不足、安全性存疑等问题,成为制约其规模化应用的核心瓶颈。在此背景下,一套全面、系统的智能体系统运维方案已成为行业迫切需求,本报告讲重点涵盖AgentOps(Agent System Operations),并对其四大核心阶段(监控、异常检测、根因分析、故障消除)进行定义与可用方法介绍,系统的综述现有多智能体系统可能存在的异常和故障类型,并探讨可落地的技术方向。
演讲提纲:
1. 智能体运维AgentOps的诞生和定义
AgentOps的诞生是依托于智能体系统的崛起,其主要是为了解决智能体系统中智能体内部的规划、推理、记忆管理以及智能体之间的通讯等异常检测,故障分析和安全围栏的建立。
2. AgentOps和传统智能运维的关联关系
讲述AgentOps和AIOps的区别,从可观测性到异常检测,以及根因定位和故障修复,各有自己的关注点和优劣势。
3. 现有AgentOps在智能体异常监测和故障根因分析的手段和算法
分享现有学术界前沿的智能体异常检测和故障分析算法,对比他们取得的进展。算法涉及who&when,famas,LLM-as-a-judge等多个方向
4. 落地AgentOps的实践路径
要原生而不是打补丁,要内置而不是外挂,可信度要可观测,要尽早建立可观测性标准
5. AgentOps值得投入的方向
讲述随着OpenClaw的崛起,Agent除了本身的执行可靠性,还有哪些值得投入的方向,涉及skills的可信度评估,系统本身的安全风险评估,领域严肃任务的安全围栏。
听众收益:
1. 了解智能体运维新方向:智能体可能会出哪些问题,怎么识别这些可能出现的问题?
2. 了解如何定位分析智能体出现故障的原因
3. 了解如何在严肃领域开发部署和应用智能体
中国科学院计算机网络信息中心副研究员,博士生导师,学位评定委员会委员,中国科学院“百人计划”引进青年人才,从事智能运维、AI for Networking交叉学科研究,相关成果获得MIT Technology Review 和Hacker News报道,在SIGCOMM, ICML, FSE, WWW, SIGKDD, SIGIR, INFOCOM等国际会议上发表论文50余篇。获得2019、2023、2025年最佳论文奖及提名,CIKM 2019论文成为CIKM历史引用量排名前三的论文之一。担任中国计算机学会2024(第七届)CCF国际AIOps挑战赛程序委员会主席,承担国家重点研发计划青年科学家等项目。