计算机教程网

您现在的位置是:首页 > 主机教程 > 服务器运维

服务器运维

阿里云事故真相

2024-10-29 20:10:25服务器运维 主机评测网
阿里云事故真相:由于工程师粗心大意写错了一行代码触发

91日,我经历了非常难忘的一天。阿里云云盾的安骑士产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。故障恢复期间,不断有朋友问我,阿里云所有客服也都忙于处理这个问题。而我,是云盾的负责人。

这次的故障是由于工程师粗心大意写错了一行代码,从而将所有新启动的可执行文件都当成了恶意文件进行隔离。由于我们之前在设计上的缺失,对这一特殊的异常情况缺乏快速恢复的机制,只能临时写程序进行紧急恢复,因此整个故障持续了较长的时间。在此首先向所有遭遇这次故障的客户表示深深的歉意。但请不用担心的是,这次故障不会造成任何数据丢失,更不会如某些谣言所说会造成数据泄露。

这次故障也暴露出了我们在研发流程上的一些问题,我们会深刻反思和改进,在此不再赘述。对于写出这行代码的工程师,我相信他已经得到了深刻的教训。而我也将为整个事件承担该有的管理责任。

但这些都无法挽回我们客户的损失。在微博上看到客户的吐槽,充满了愤怒和无奈,作为当事人的我,心情是极其复杂的。随后的谣言四起,加上有心人推波助澜,让我无法再保持沉默,我来直面这些疑问。

很多人的疑问在于阿里云身为云计算服务商,为什么可以删除客户服务器里的文件?这让很多客户产生了一种对云计算的不信任感。

要回答这个问题,就必须先从AWS的安全共担模式,和阿里云的保姆模式说起。

实际上,AWS作为业界云计算的标杆,在客户安全的态度上采取的是一种共担模式,即AWS只对它作为云计算平台本身的安全负责,而选择把客户的安全交给第三方安全厂商,所以在AWSMarketPlace里,卖的最好的也是安全产品。

而阿里云在成立的第一天起,就认为安全是云计算最重要的事情。同时,我们也看到中国的IT行业,和美国的IT行业有着非常大的区别。在美国,IDC里有着各种成熟的IT解决方案以及商业化产品,美国的企业安全市场付费能力也非常的强,因此美国的安全市场已经相对比较成熟了。

而在中国,大量的中小企业客户实际上处于一个裸奔状态,他们的安全需求往往得不到满足。在这样的市场环境下,为了更好的培育云计算市场,让客户能够把更多的精力聚焦在自己的业务上,我们在云计算解决方案里集成了自主研发的安全产品,希望能够将阿里多年在安全技术上积累的经验,分享给所有阿里云的客户,这就是云盾的一系列产品。

因此安全对于阿里云来说很重要,我们希望客户在使用阿里云时,能够尽可能少的担忧安全问题。基础攻防类的安全需求,都可以通过云盾解决掉。这就是阿里云安全的保姆模式,我们帮客户做了更多的事情。

在云盾之外,我们也借鉴了AWS的思路,会广泛邀请安全厂商和开发者为云上的客户提供服务。比如在VPC网关后通过SDN技术串接虚拟网络设备的位置,我们就是开放给安全厂商的。

云盾是阿里云的一个安全品牌,是一系列安全产品的组合。比如防御了453.8GbpsDDoS攻击的DDoS高防IP产品是其中之一,即将推出的弹性安全网络产品是一个新的基础网络安全产品,还有已经在公测的「态势感知」产品,可以帮助客户做安全数据分析,让安全决策变得简单;这次造成故障的安骑士产品是希望解决所有服务器的安全问题。

安骑士产品的主要功能,是提供高危漏洞修复、防服务器密码破解和木马文件查杀。预装在阿里云的每一个ECS里,因为我们希望售卖的每一台ECS都是安全的。如果客户不想使用云盾安骑士服务,可以按照官方的指导说明来进行卸载。

安骑士是免费服务,这些年发挥了很好的作用。比如在201410月,WDCP出现了严重的安全漏洞,黑客可通过此漏洞添加管理帐号,并登录WDCP管理后台。当时阿里云上有上千台安装WDCPECS受此漏洞影响,并有部分机器已经被黑客植入了名为GatesDDoS木马。当时安骑士在第一时间添加了漏洞修复规则和Gates木马查杀特征,在1天内完成了所有受影响ECS的漏洞修复和木马清理。

现在,通过安骑士防暴力破解功能的协同防御机制,每一天都会拦截超过5亿次的暴力破解攻击。我们在今年上半年做过一次测试,在某云平台购买的一台机器开放SSH到公网后,统计了一周有82703SSH登录失败的记录(暴力破解攻击),而在云盾安骑士的保护下,阿里云的一台测试机器只有72SSH登录失败记录。

互联网的不安全,超出你的想象。

但我对目前的产品现状仍然有很多不满意的地方。我一直在团队内部倡导和强调的文化是「透明」。我希望每个人的工作都能透明出来,所以我们会在墙上贴出云盾看板,透明出每个团队做的工作和进度,让所有路过的人能够看到;我希望我们的产品能够变得更加的透明一些,把产品做的所有事情透明给用户,特别是一些需要用户授权和允许的操作。

在这一点上,过去做的不够好,我们正在努力改变。这次安骑士误隔离用户的正常文件所涉及的功能,在设计上是一个用户可选的功能,但却因为bug配置上了其他用户,这也是一个非常严重的失误。

在这次故障恢复后,阿里云已经立即启动了百倍时间赔偿的计划。但是我认为这也是远远不够的,云盾应该再多做一些事情。

所以我今天做出了以下决策:

1.对于本次故障受到影响的客户,我们会赠予一批云盾付费产品,包括:弹性安全网络、态势感知、安骑士云托管。我们会在近期拟定方案并开通服务,客户也可以选择不使用。

2.安骑士将尽快提供方便快捷的一键关闭功能。

3.我们会给受影响的客户写一封手写的道歉信。

4.对于影响较大的客户,我们会即刻出发登门拜访负荆请罪,直面你的怒火和建议。

以上这些,希望能够帮助我们的客户带来更好的安全感受。对于选择离去的客户,我们会全力配合做好迁移工作,并诚挚的希望有一天你们会再回来。对于愿意选择继续相信我们的客户,我们会怀抱着最大的感恩之心,与你们共同成长。

做云计算难免故障,在危机时刻,我只心疼我们的客户。

吴翰清(道哥、刺)

201593日凌晨。