睿象云 与摩拜单车 携手打造智能告警最佳实践

摩拜客户案例.png


AIOps( Artificial Intelligence for IT Operations,以下简称 AIOps )如何落地一直是当下最热门的IT运维管理话题。


指标和告警管理是 AIOps 落地的两个切入点。


看智能出行领域独角兽摩拜单车如何运用智能告警平台( Cloud Alert,以下简称 CA )从万千告警中洞察更多运维难疑。


客户面临问题


摩拜单车,致力于让出行更便捷。自 2015 年 1 月成立以来,用户呈爆发性增长,对运维带来相当大的挑战!


挑战一:监控容易做,告警很难报


Zabbix 和 Prometheus 作为摩拜单车 IT 系统日常运维监控工具,每天至少产生1500条以上的告警。


怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情。


所以业界流传着“监控容易做,告警很难报”的说法。


挑战二:告警时效性低,送达实际处理人平均需20分钟


在早期的开发运维模式下,摩拜单车告警由各业务线人员进行处理。


告警的处理方式是监控系统产生告警,邮件通知给运维人员,运维人员再手动给各业务线负责人打电话,说明详细情况后安排人员处理。


告警分发和处理人员超过40人,告警信息送达处理人员平均需要20分钟。



睿象解决方案


应对一:智能告警平台 CA 帮助摩拜单车建立起有效的统一告警管理平台


将多个监控系统的告警,汇聚到一个平台中统一进行管理。


同时使用 NLP(Natural Language Processing)、词向量、聚类、信息熵等人工智能算法和技术实现告警的降噪、聚类,将每日告警量减少到 60-100,让业务线更加聚焦于业务!


同时将故障恢复时间从过去的平均4小时缩短到1.5个小时。


应对二:智能告警平台 CA 采用了有序分派的解决方案


首先是统一分派和升级机制,运维人员可根据业务线不同,将告警直接分派给业务线人员,无需人工中转告警,并设置多级升级机制,防止告警长时间无人响应。


然后采用多方式通知,除了邮件和微信通知以外,还采用了短信通知和重要告警短信电话通知的方式,不遗漏任何一条告警信息。


保障告警可达率98%,将告警送达时间缩短到1-2分钟。

    本文作者:茵Cindy 责任编辑:156****9077 本文来源:牛透社
声明:本文由入驻牛透社的作者撰写,观点仅代表作者本人,绝不代表牛透社赞同其观点或证实其描述。
    相关新闻
  • 茵Cindy
    未认证
  • 5篇

    文章总数

    2.84万

    文章总浏览数

    新闻排行
意见反馈
返回顶部