马蜂窝牵手 Dataphant:一路有你,诗和远方
-
2020-02-16
宋志向(运营)
面临的问题:
2006年的马蜂窝起步于社区。所以早期的时候,整体的架构设计并没有考虑大流量等问题,尤其是随着移动端的爆发,服务器数量的大量扩张,保障基础组件、服务的稳定健康运行,向运维团队提出巨大挑战。
而且随着服务架构越来越复杂,服务间的关联性日趋紧密。对基础服务监控高要求的同时,告警通知的及时性,准确性也有了更高的要求。如果大量的告警重复发送,或者关联性非常强的告警消息同时发出,势必会阻碍运维人员的视线,把真正关键的告警消息遗漏掉。
睿象科技提供的解决方案
统一集成:智能告警平台 CA 能接入十几种常见的监控工具,将告警全部在一个平台处理,满足马蜂窝全量告警接入的需求。
告警降噪:智能告警平台 CA 提供一系列的告警压缩方式,时间片和关联性压缩对减少告警噪音起到了非常大的作用。使用 CA 告警平台后,邮件和短信的数量明显减少,但是团队解决故障的效率和及时性都得到了提高,出现问题影响业务的时间大大降低。
统一分派和通知:根据运维团队成员的不同职责,不同时间、不同级别、不同主机组、不同内容的告警个性分派;CA 提供多种灵活的通知方式,比如:电话、短信、微信、邮件、APP、钉钉六种告警通知方式。并且 CA 多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率。
移动端处理:CA 提供微信和APP端接收、处理告警,这样马蜂窝的运维人员,即使不在公司,也能实时了解到平台的运行情况,同时也能对系统问题实时进行处理。
多维度报表助力分析:智能告警平台 CA 提供告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队解决告警故障的平均响应时间,告警数量等指标,清晰认识团队整体的工作情况。
客户反馈
马蜂窝的运维团队的负责人表示:「非感谢 CA 这款产品,它真正的帮助我们提升了告警消息的及时率和告警到达率。而且
CA
提供了非常灵活的通知和分派,帮我们建立起了多层联动协作机制,如果问题没有被及时处理,报警升级机制就会加强,让告警不存在遗漏。更重要的是,我们现在可以通过
APP 来处理告警信息,大大提升了我们的工作效率。此外,我们借助 CA 这款 SaaS
产品,很多数据的整理工作通过线上就可以完成,同时让我们评估团队的工作有据可依,让运维也有了 KPI 考核,真正帮助我们实现了‘数据化’的管理。」
-
本文作者:宋志向(运营)
责任编辑:宋志向(运营)
本文来源:牛透社
-
分享到: