微盟遭遇“黑天鹅”后关键性的36小时

    2020-02-26 牛透社 lv Created with Sketch.

微信图片_20200226124443.png

近日,网传微盟产品服务出现无法使用等问题,致使商家小程序彻底瘫痪,经营更加惨淡。

2月25日,微盟集团发布“关于微盟系统故障的通告”,回应了事情的始末,表示故障原因系员工恶意行为,正在全力修复中。

截至2020年2月25日12:00,微盟集团报价5.660港元,跌幅为4.553%。经历了一段下挫之后,到25日收盘微盟股价为6.18港元,收涨4.22%,成交7.7亿港元,最新总市值138亿港元。

此事一出,整个行业哗然,在崔牛会的群里一位创始人的一句“穿越疫情,善待运维”也引起了大家的共鸣。

01 盘点:微盟遭遇程序员“黑天鹅事件”始末

作为 SaaS 企业服务商,微盟是一家典型的技术公司,拥有基础的平台支撑以及安全管理规范。在如此全备的前提下,微盟还会遭遇系统故障这只“黑天鹅”突袭?

这还要从2月23日说起。

通告显示,2月23日19点,微盟收到系统监控报警,服务出现故障,随后立刻召集相关技术人员进行定位,发现大面积服务集群无法响应,生产环境及数据遭受严重破坏。

为此,微盟立刻启动了紧急响应机制,公布了系统预计修复完成时间,并与腾讯云技术团队一起研究制定生产环境和数据修复方案。

事后,微盟对恶意破坏生产环境的账号进行追踪分析,成功定位到登录账号及 IP 地址,锁定犯罪嫌疑人,并于2月24日向上海市宝山区公安局报案,目前犯罪嫌疑人已经被宝山区公安局刑事拘留,犯罪嫌疑人承认了犯罪事实。

这不禁让人疑惑,为什么一家以技术为核心优势的科技公司,生产环境和数据会被一名员工“轻易”破坏?让人不理解的是为何运维人员会有如此高的权限

我们也在思考是什么原因导致了事件的发生,事实上,分业务管理主库和备份库是互联网行业的普遍惯例,除了腾讯这样规模的公司,大多数公司普遍都会授予运维较大的权限

通过微盟发出的通告可知,这次酿成大祸的犯罪嫌疑人,正是微盟拥有较大权限的研发中心运维部核心运维人员贺某。他因个人精神、生活等原因于2月23日18点56分通过个人 VPN 登入公司内网跳板机,对微盟公司线上生产环境进行了恶意的破坏。

不得不说,此次事件完全暴露了微盟因疫情远程办公导致在运维管理流程上出现的疏漏。

02 追问:故障多久能修复?

在故障发生的36个小时中,商户因陷入运营停滞而感到无助和愤怒,客服被打爆的同时,微盟在事故抢修中忍受煎熬。

当前,随着疫情的发展和防控的需要,各地线下商户纷纷转战线上,微信小程序等线上渠道访问量迅速增长,尤其是电商零售小程序、外卖小程序以及表单产品的使用需求大增。

然而此次突发事件,让微盟商户无法在线上正常经营,用户也无法使用小程序服务,给商户带来损失。

系统故障究竟何时才能修复成为需要迫切解决的问题。

通告称,在故障发生后,微盟方面第一时间调遣技术团队全力进行修复和排除故障。截止到2月25日7点,微盟的生产环境和数据修复都在有序进行,预计2月25日晚上24点前生产环境将修复完成,微盟所有新用户将可恢复服务,老用户由于数据修复时间问题,微盟将提供临时过渡方案,预计老用户数据修复将可在2月28日晚上24点前完成。

从2月23日故障发生到28日,中间相隔5天。为什么故障修复速度如此慢?

是数据库压根没有产生备份?还是之前的备份在这次事故中被恶意抹去了?实际上,越是大型网站,尤其是像微盟这样拥有百万量级注册商户和数十万活跃商户的 SaaS 平台,系统恢复的难度远远超过了把几台应用和数据库服务器恢复那么简单。

大型网站的后台其实是一个庞大服务器集群,一个看似简单的页面背后可能都是由成百上千个应用子系统组成,每个子系统又包括若干台应用和数据库服务器。

简单来说,每一个从首页跳转过去的二级域名都是一个独立的应用子系统,这上千个应用子系统平时真正经常发布和变更的,可能就只有不到20%的核心子系统,而且发布时都是做加法,很少完全重新部署一个应用。

所以,在平时的运维过程中,对于常见的故障企业都会有应急预案。

像微盟所遭遇的被删除库的情况相对罕见,所有系统包括数据库都需要重新部署的,这显然并没有出现在微盟的应急预案中。

在仓促上阵应急的情况下,技术方案的评估和选择、不同技术岗位之间的管理协调等问题都是对微盟技术团队的挑战,也是他们不得不面对的难题。

不过,值得欣慰的是,微盟的云计算服务商腾讯云派出了众多技术专家协助微盟技术团队,尽全力帮助微盟商户将本次故障造成的影响和损失降到最低。

幸运的是,据微盟消息称,目前商户数据备份完整,系统服务恢复后,商户的使用将不会受到影响。

与此同时,微盟客服团队也在全面响应客户需求和帮助解决问题,为这次的“意外”善后。微盟要处理的不仅仅是系统恢复正常使用的单一问题了,还包括了商户的后续信任和妥善维护。

03 反思:SaaS 系统安全如何保障?

作为云服务领域最具增长前景之一的 SaaS 行业,近年来发展迅速,企业商户也越来越接受这种无需开发、按需定制的云端服务模式。

然而随着 SaaS 应用逐渐走向成熟,有关于 SaaS 系统的安全性和稳定性也越来越被重视。

SaaS前端应用,具有流量大且难预测、极致追求速度体验、自定义模板和功能需求强烈、多端口多渠道等特点,需要稳定的基础平台支撑来运行业务,安全性也至关重要。

况且,微盟在技术团队已经拥有较为成熟的安全管理规范、对服务器和数据访问权限有着明确的分层和分级的授权管理制度的前提下,仍然遭遇系统故障。

或许,这将会成为SaaS运维历史上的一个标志性事件,给所有的SaaS技术企业敲响警钟。SaaS企业和技术人员都需要认真反思,从微盟的这次故障事件中吸取教训,在今后加强对线上运维的管理,持续不断地维护 SaaS 系统安全和稳定。

04 认识:凡事具有两面性

在盘点微盟“黑天鹅事件”时,我们还注意到自新冠肺炎疫情爆发以来,微盟为支援社会各界抗击疫情,通过上海市慈善基金会向疫区捐款1000万元,同时投入了大量研发资源,在年初三紧急上线了疫情实时追踪专题页,并为慈善机构和政府部门分别免费开发了慈善捐款和口罩预约小程序。

同时,针对企业商户面临的实际困难,微盟还免费开放表单小程序、外卖小程序、直播小程序。

面对迅速增长的商户数和用户访问量,微盟紧急对服务器进行扩容,同时安排运维团队24小时不间断跟进解决商户问题,全力保障疫情期间商户系统正常运转。

通告中微盟表示,会对因此次事故遭受损失的商家给予赔付和补偿,这也算是对商家的回应。相信此次事件之后,微盟一定会加强对线上运维的治理和员工的密切关注。

05 逆境终炼就强大

“杀不死你的,都将使你更强大”。正如淘宝、携程等大型互联网企业都曾遭遇过系统故障问题一样,在克服了一个又一个系统崩溃、页面瘫痪等问题之后,他们的系统稳定性和安全性都迈上了一个新的台阶。

微盟一路走来,也曾经历过服务器宕机、网络黑客攻击等几乎所有的安全威胁。

经此一役,微盟肯定“长记性”了,会加固其系统的安全性和稳定性。

    本文作者:牛透社 本文来源:牛透社
声明:本文由入驻牛透社的作者撰写,观点仅代表作者本人,绝不代表牛透社赞同其观点或证实其描述。
  • 牛透社
    牛透社
    媒体认证
    lv Created with Sketch.
  • 1194篇

    文章总数

    1171.57万

    文章总浏览数

意见反馈
返回顶部