在 DevOps 与智能运维深入普及的当下,告警管理始终是保障系统稳定性的核心环节。然而,随着微服务架构普及与服务规模持续增长,传统告警排查流程日益暴露出效率瓶颈——告警数量激增、人工介入耗时、排查路径复杂,一线运维与开发人员往往陷入“告警海洋”。近日,得物技术团队对外分享了其基于大语言模型(LLM)Agent 对告警排查流程进行重构的实践成果,为行业提供了一种可参考的智能化解决方案。
告警排查的“三重困境”
作为国内领先的潮流电商平台,得物服务着数亿用户,内部部署了数以千计的微服务实例。在这样复杂的分布式环境下,告警是运维与研发团队识别故障、保障服务可用性的“第一道哨兵”。然而,传统告警排查流程长期面临三大挑战:
告警风暴与信息过载。 单个故障往往触发多条关联告警,值班人员需要在海量告警中快速定位根因,人工翻阅日志、查询监控面板、比对配置的过程耗时且容易遗漏关键信息。
排查链条长、知识依赖高。 告警排查涉及链路追踪、日志分析、指标查询、变更记录等多个系统,需要工程师同时掌握多项工具的使用方法,新人上手成本高,资深工程师也常因信息分散而疲于切换。
处置经验难以沉淀。 即使排查出根因并完成修复,处置经验大多停留在个人记忆或零散文档中,团队知识复用率低,类似故障反复发生时仍需重复排查。
LLM Agent:让“智能排查”成为现实
针对上述痛点,得物技术团队尝试将 LLM Agent 引入告警排查流程,构建了一个能够自主感知、分析、决策与执行的智能体。其核心思路是:将大模型的自然语言理解与推理能力,封装为可调用各类运维工具、访问知识库、执行诊断动作的 Agent 系统。
具体而言,该方案包含以下关键模块:
告警感知与上下文构建:Agent 实时接入告警事件,自动拉取关联的链路追踪数据(如调用链跨度、异常堆栈)、近期变更记录、服务指标趋势等,形成结构化的故障上下文。
多工具编排与自主推理:基于 LLM 的推理能力,Agent 理解告警含义后,自主决定需要查询哪些数据源——例如调用 Apollo 配置中心检查变更、请求 Elasticsearch 搜索日志关键词、从 Prometheus 拉取时序指标——并将结果融入推理链,逐步逼近根因。
知识增强与经验回灌:团队将历史告警处置文档、常见故障模式库、专家经验总结转化为向量化知识库,Agent 在排查时可基于相似度检索辅助判断。同时,每次排查完成后,Agent 会自动生成排查报告与处置建议,并反向更新知识库,形成持续学习的闭环。
从“人找信息”到“信息找人”
在实际落地中,得物技术团队选取了高频、高影响度的业务告警类型进行试点。以典型的“服务调用超时”告警为例,传统流程下,值班工程师需要手动登录多个平台查看调用详情、服务依赖、数据库慢查询等信息,平均耗时 15-20 分钟。接入 LLM Agent 后,Agent 能够自动拉取调用链中所有节点的耗时分布,结合变更事件与日志异常,在 2 分钟内生成包含“根因定位—影响范围—修复建议”的完整报告。
值得一提的是,Agent 并非取代人类工程师,而是作为“数字副驾驶”辅助决策。在复杂场景下,Agent 会输出多个可能根因及其置信度,工程师可一键确认或调整。此外,Agent 还支持自然语言交互,工程师可以直接提问“检查最近 30 分钟该服务出现的所有慢调用”,大幅降低了工具使用门槛。
智能化运维的未来想象
得物技术团队透露,经过多轮迭代,LLM Agent 在试点告警类型上的平均排查时间缩短了 70% 以上,根因定位准确率超过 85%,同时显著减少了值班人员夜间处理告警的工作强度。更重要的是,该方案为团队沉淀了一个持续进化的“运维大脑”——每一次排查都是对知识库的一次更新,系统越用越聪明。
从行业视角看,LLM Agent 在告警排查场景的成功落地,标志着 AI 驱动的运维正从“规则辅助”迈入“智能推理”阶段。未来,随着 Agent 可调用工具的扩充、多模态数据(如网络拓扑、代码变更)的融合,以及跨团队协同机制的完善,我们有理由相信,更自主、更可靠的智能运维体系将不再遥远。
得物技术的此次探索,不仅为自身业务稳定性提供了坚实保障,也为业界提供了一个可复用的技术范式——当大语言模型不再只是“聊天机器人”,而是真正融入云原生基础设施,运维效率的质变正在发生。