Agentic Skill 在阿里云 ECS 大规模诊断中的实践与落地
内容简介:
传统的云资源诊断依赖规则引擎和专家脚本,但在面对阿里云ECS海量实例、复杂故障场景时,往往显得僵化且维护成本高昂。本演讲将揭秘阿里云内部如何利用 Agentic Skill(代理技能) 架构,将LLM的推理能力转化为确定性的运维动作,实现从“被动报警”到“自主侦探与治愈”的范式转变,分享在大规模高并发场景下的工程挑战与落地经验。
演讲提纲:
1. 背景与挑战 —— 当规则引擎撞上“规模墙”
2. 核心架构 —— 构建 ECS 的“全科医生”
3. 落地场景 —— 那些 AI 解决的“疑难杂症”
4. 工程化挑战 —— 从 Demo 到 Production
5. 成效与展望
听众收益:
架构认知: 掌握 LLM Agent 在基础设施运维领域的落地架构设计。
实战经验: 了解如何构建高可用、低幻觉的“诊断技能库”(Skill Set),解决复杂场景(如系统宕机、网络抖动)的归因难题。
工程避坑: 获取在大规模场景下控制 Agent 成本、保障执行安全(Safety)及提升响应速度的工程化方案。
未来视野: 洞察从自动化(Automation)向自主化(Autonomy)演进的SRE新趋势。