睿象云 与摩拜单车 携手打造智能告警最佳实践
-
2019-11-20
茵Cindy
AIOps( Artificial Intelligence for IT Operations,以下简称 AIOps )如何落地一直是当下最热门的IT运维管理话题。
指标和告警管理是 AIOps 落地的两个切入点。
看智能出行领域独角兽摩拜单车如何运用智能告警平台( Cloud Alert,以下简称 CA )从万千告警中洞察更多运维难疑。
客户面临问题
摩拜单车,致力于让出行更便捷。自 2015 年 1 月成立以来,用户呈爆发性增长,对运维带来相当大的挑战!
挑战一:监控容易做,告警很难报
Zabbix 和 Prometheus 作为摩拜单车 IT 系统日常运维监控工具,每天至少产生1500条以上的告警。
怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情。
所以业界流传着“监控容易做,告警很难报”的说法。
挑战二:告警时效性低,送达实际处理人平均需20分钟
在早期的开发运维模式下,摩拜单车告警由各业务线人员进行处理。
告警的处理方式是监控系统产生告警,邮件通知给运维人员,运维人员再手动给各业务线负责人打电话,说明详细情况后安排人员处理。
告警分发和处理人员超过40人,告警信息送达处理人员平均需要20分钟。
睿象解决方案
应对一:智能告警平台 CA 帮助摩拜单车建立起有效的统一告警管理平台
将多个监控系统的告警,汇聚到一个平台中统一进行管理。
同时使用 NLP(Natural Language Processing)、词向量、聚类、信息熵等人工智能算法和技术实现告警的降噪、聚类,将每日告警量减少到 60-100,让业务线更加聚焦于业务!
同时将故障恢复时间从过去的平均4小时缩短到1.5个小时。
应对二:智能告警平台 CA 采用了有序分派的解决方案
首先是统一分派和升级机制,运维人员可根据业务线不同,将告警直接分派给业务线人员,无需人工中转告警,并设置多级升级机制,防止告警长时间无人响应。
然后采用多方式通知,除了邮件和微信通知以外,还采用了短信通知和重要告警短信电话通知的方式,不遗漏任何一条告警信息。
保障告警可达率98%,将告警送达时间缩短到1-2分钟。
-
本文作者:茵Cindy
责任编辑:156****9077
本文来源:牛透社
-
分享到: