【编者按】

近年来,数据中心的网络安全、信息安全和物理安全需求持续增长。除了应对外部的黑客攻击,内部的人为错误和蓄意破坏之外,水、电、火相关的自然灾害也成为必须考虑的重点。机房的设备密度越大,散热量越低,视频监控、空调、供电、UPS电源等辅助设施的管控也同等重要,一旦发生火灾就可能是一场毁灭性的灾难。近日,一次史无前例的重大事故,导致位于法国斯特拉斯堡的OVH数据中心被大火烧毁。作为欧洲最大、世界第三的托管服务提供商,这家云计算企业有为客户提供VPS、专用服务器、以及其它Web服务。据悉,火灾导致多个数据中心无法服务,大量客户网站瘫痪,部分客户数据完全丢失且无法恢复,这是数据中心历史上史无前例的灾难性事件。

一、事件回顾

2021年3月10日星期三凌晨,一场火灾摧毁了欧洲最大的云基础设施运营商、法国公司OVHcloud运营的四个主要数据中心。OVHcloud是欧洲最大的托管服务提供商,也是世界第三大托管服务提供商,可提供VPS、专用服务器和其他Web服务,在全球设有32个数据中心,其中17个设在法国。

据报道,该公司的客户包括法国政府、法国最著名的艺术机构之一蓬皮杜艺术中心、加密货币交易所Deribit等。受影响的服务器托管了约360万个网站,包括法国、英国、波兰等国一些政府平台。

当地消防部门动用了上百名消防员才得以将大火扑灭。据了解,OVH位于斯特拉斯堡的中心共有四个:SBG1,SBG2,SBG3和SBG4,而这场大火完全烧毁了SBG2数据中心和部分SBG1,UPS(Uninterruptible Power Supply,不间断电源)放置在SBG3中,而SBG4数据中心没有受到影响。事发几小时后,OVH官网首页不见数据中心SBG2和SBG3的身影,只剩下了SBG1和SBG4。

这场大火对OVH的众多客户公司可真是“飞来横祸”。火灾导致多家公司的Web服务突然无法访问,目前已知受影响的公司包括:网络威胁情报公司Bad Packes、免费国际象棋服务器Lichess.org、视频游戏制造商Rust、加密货币交易所Deribit的博客和文档站点、电信公司AFR-IX、加密实用程序VeraCrypt、新闻媒体eeNews Europe、蓬皮杜艺术中心等。

蓬皮杜艺术中心表示,其网站已经关闭。加密货币交易所Deribit则表示,其博客已关闭,但交易并未受到影响。新闻媒体“欧洲商业新闻”(eeNews Europe)表示其网站处于离线状态。其中视频游戏制造商Rust在这场大火中的损失尤为惨重。作为一款生存冒险游戏,Rust是Steam平台最受欢迎的网络游戏之一,每天的同时在线玩家数超过10万。可因为这场突如其来的大火,Rust失去了所有欧洲服务器,丢失的数据也无法恢复。

OVHcloud创始人兼总监Octave Klaba也在Twitter上公开此次大火的情况,并提出客户启动灾难恢复计划的建议。

二、主要教训

1、SaaS数据备份必不可少

除了网站宕机,许多OVHcloud客户还报告了长时间的电子邮件中断和严重的数据丢失。到中午,OVHcloud已经通知主要客户,应该启动灾难恢复计划,直到晚上,宣布两个受影响的数据中心要到3月15日才能恢复运营,第三个中心将继续保持离线,一直到3月19日。第四个似乎已被完全摧毁。OVHcloud在法国有17个数据中心,在全球有32个数据中心,斯特拉斯堡的数据中心就是其中之一。

这场可怕的火灾发生之际,许多公司和政府机构正将越来越多的关键业务流程和相关数据转移到由OVHcloud、Amazon、Microsoft、Google等提供的云基础设施上运行的SaaS应用程序。尽管大型云提供商能够相当快速地故障切换到其他数据中心并与其他数据中心共享负载,但OVHcloud客户经历的中断表明,默认情况下,这些提供商不承担为应用程序和数据提供类似恢复能力的责任。作为一家企业,可以有效地将数据中心硬件和操作系统外包给云提供商,但仍有责任保护好自己的数据。

2、灾难恢复计划需经得起检验

OVHcloud大火是自然灾害或人为灾难的典型案例,灾难恢复方案就是针对这种灾难而设计的。在气候变化的时代,全球发生此类事件的可能性正在上升,如干旱增加了发生野火的可能性、龙卷风和飓风等破坏性天气事件的暴力和频率增加、海平面上升可能会增加沿海地区的洪水泛滥等。

但这些并不是唯一可能导致数据丢失或破坏的潜在灾难。日益老练的网络犯罪团伙每天在世界各地发动数十万次恶意软件攻击,如果不支付勒索赎金,就会使用勒索软件永久加密公司数据。敌对的国家行为者对软件供应链和流行的电子邮件服务器发起了大规模、复杂的攻击,这些攻击有可能导致数十万个关键应用程序瘫痪。

在过去的一年里,由于技术人员犯下的非恶意配置错误而导致的数据丢失事件数量也大幅上升。这在很大程度上可以归因于他们在管理云数据存储方面缺乏经验,在疫情和远程工作激增之后,企业匆忙迁移到了云数据存储。对于许多企业,尤其是规模较小的企业,几天或几周的灾难性停机对企业来说是生死存亡的威胁。

事实上,风险一直存在,而企业能做的就是最大程度避免。OVHcloud火灾及时提醒组织,各种规模的企业都应该重新审视其数据保护和灾难恢复计划,以确保充分保护其SaaS应用程序不受停机影响,并保护相关数据不受破坏。从企业角度而言,在选择数据中心时应注重更多因素考量,包括地理布局、气候环境,躲开自然灾害频现的地区。而数据中心运营商更应加强紧急机制的设定,并以更多数据中心资源保障冗余,当意外出现时能够通过其他数据中心进行工作转移和无缝运营。

参考资料:

1.https://www.acronis.com/en-us/blog/posts/saas-backup-lessons-ovhclouds-data-center-fire

2.https://www.bleepingcomputer.com/news/technology/ovh-data-center-burns-down-knocking-major-sites-offline/

3.https://www.datacenterknowledge.com/uptime/fire-has-destroyed-ovh-s-strasbourg-data-center-sbg2

声明:本文来自天地和兴,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。