解决方案

从告警到修复的运维自动闭环

运维团队面对的不是一个系统的问题,而是“监控系统看告警、登服务器查日志、开工单系统记结论、在群里报结果”这条跨系统链路的效率问题。FIM Agent 把这条链路从人工串联变为自动执行。

告警量远超人工处理能力

生产环境的监控系统每天产生数百甚至数千条告警。其中大量是重复告警、关联告警或低优先级噪声。运维人员花费大量时间在“判断这条告警该不该处理”上,真正需要紧急响应的 P0 事件反而淹没在列表中。

一次排查涉及四到五个系统的手动操作

发现告警后,先登录 Prometheus 或 Zabbix 查看详情;再 SSH 到对应服务器拉取应用日志和系统日志;如果涉及最近的部署变更,还需要登录 CI/CD 系统查看发布记录。排查完成后在 Jira 或内部工单系统记录结论,最后在飞书群里汇报。每一步都需要手动切换上下文。

排查质量依赖个人经验

资深运维工程师的排查思路——先看哪个日志、关注哪些指标、哪些现象对应哪类根因——停留在个人脑中。新人面对同样的告警需要从头摸索,处置时间是资深人员的三到五倍。经验无法沉淀为可复用的标准流程。

1

告警接收与预处理

监控系统通过 Webhook 将告警推送至 FIM Agent。Agent 自动执行告警去重(合并同一源的重复告警)、关联分析(识别同一故障引发的多条告警)、优先级判定(基于告警类型和影响范围分为 P0-P3)。

2

日志与上下文自动采集

Agent 通过连接器或内置工具拉取相关信息:应用日志和系统日志(通过 Shell 工具或日志平台 API)、最近的部署记录和配置变更(通过 CI/CD 系统连接器)、相关服务的性能指标(通过监控系统 API)。多个采集任务并行执行,互不阻塞。

3

根因分析

Agent 将采集到的日志、指标和变更记录提交给大模型分析。同时检索知识库中的历史故障案例(相似告警的过往处理记录)。生成根因诊断报告:列出可能的原因及其置信度,关联历史相似案例,推荐处置方案。

4

推送与确认

诊断报告通过飞书交互卡片推送至值班人员。卡片包含:告警摘要、根因分析、推荐操作按钮。值班人员在卡片中直接选择操作,确认后 Agent 自动执行。

5

执行与记录

Agent 执行处置操作,监控执行结果。自动更新工单系统:记录告警详情、诊断过程、处置操作和结果。关闭告警,通知相关团队。全部操作链路可回溯。

告警处理从“人追系统”变为“系统找人”

Agent 完成预处理和初步诊断后,只把需要人工决策的关键环节推送到值班人员面前。人不再被动地在系统间奔波,而是在收到推送时做出判断。

排查经验从个人记忆变为组织资产

每次告警的诊断过程和处置结果自动沉淀到知识库中。新的告警发生时,Agent 自动检索相似历史案例。资深人员的经验通过 Agent 传递给整个团队。

处置全程可审计

从告警触发到最终关闭的完整操作链路记录。支持 SLA 统计和故障复盘分析。

开发者

3 分钟本地启动

git clone https://github.com/fim-ai/fim-agent.git && ./start.sh

企业用户

了解 FIM Agent 如何适配您的业务场景,获取定制化解决方案。