腾讯云到底哪里错了
Posted 科技唆麻
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了腾讯云到底哪里错了相关的知识,希望对你有一定的参考价值。
数据安全何在?
99.9999999%的数据可靠性、三副本存储策略、异地容灾机制……这是腾讯云给客户承诺的数据安全保障机制,近乎万无一失。但日前,因为丢失了一家创业公司的全部存储数据,腾讯云瞬间遭遇滑铁卢并走下神坛,不仅让自己身处舆论的风口浪尖,还引发了外界对云计算和云存储行业的集体焦虑和质疑。为此,腾讯云甚至把对此次事故的处理方式写到了百度百科显眼的位置上。
事发在7月20日晚8点,一家叫清博数控的创业公司发现其网站、小程序、H5无法打开,在漫长几天的沟通和处理后,被告知其业务“前沿数控平台”存储在腾讯云上的相关数据100%丢失。此次事故造成前沿数控技术平台PC网页、H5、小程序共用的核心数据,平台注册的精准用户数据,数十万条用户帖子,行业品牌库数据及所有录入的资讯全都丢失。一家苦心沉淀了两年的、高度垂直行业里的创业企业遭到毁灭性的打击。
最令人咋舌的是,这次事故的发生竟是源于腾讯云工作人员一顿操作猛如虎。腾讯云在对故障原因进行分析和复盘后得出结论:本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,三副本安全机制失效,最终导致客户数据完整性受损。比起系统故障的小概率,人为疏漏是不可控的概率事件,这一点也直接指向了腾讯在这场事故中应承担的责任。
腾讯云历史故障盘点
腾讯云出故障并非个案。就在事故发生期间,也就是7月25日,腾讯云也被爆出因出现宕机事故,导致大量微信后台内容错乱。腾讯云团队回应称,广州运营商光缆物理中断,导致腾讯云广州区域全面断网,包括腾讯云主页、控制台、DNSPod等。 腾讯云官微的回应微博下方,网友的质疑声不绝于耳。
同样的事件还不只发生过一次。早在2016年7月30日上午,因为腾讯云发生故障,有不少微信用户投诉,称无论是重启手机、卸载重装、清空内存等动作,都无法登陆账号。
因为这一串故障接连发生,腾讯云还在2016年云故障事件“杀手”榜中排名第一,被称为“不靠谱双冠”。
2014年,也有多名网友访问腾讯云网站响应速度慢、图片打不开,以及出现无法登陆管理中心的控制台等问题。总之,自13年对外开放起,腾讯云的问题就层出不穷。
腾讯云故障频出为哪般?
在2017年科技部发布了2017中国独角兽企业名单里,腾讯云在云服务行业独角兽企业中排名第二,仅次于阿里云。腾讯云作为当前国内几大云服务商之一、是腾讯重点的战略布局之一,有马化腾2016年的亲自站台,还号称是全球云计算基础设施最完善的中国互联网云服务商,为何还是频出故障?
可以总结以下几个原因:
第一,腾讯云为了扩张市场份额,不断抢占低端市场,存在一定的超卖现象,导致平台稳定性差。我们先来回顾一下这次事故最开始的原因——因为服务器使用率过高报警不得不开始迁移,在迁移的过程中才出现了各种问题,而服务器的超负荷有可能就跟跟腾讯云的超卖有关。通常情况下,卖个单方用户的服务器并不会24小时满载运行,因此为了充分利用服务器的算力,云服务商很可能采取超卖的策略,在系统稳定和增加收益之间寻求平衡,就跟门票、机票的超卖一个道理。但是超卖带来的结果就是,一旦突然遇到访问量高的特殊时段或者低端用户过度使用服务器,如一些“黑产活动”,就很可能造成服务器超载,这时候稳定性就很成问题。
而阿里云当前在云计算市场市场份额较大,和马云对于云计算的重视程度有很大关系。一个典故就是,在一次论坛上,主持人问马云和小马哥,如何看待云技术,马云说,非常看好,认为是下个十年最重要的领域,而一旁的小马哥则说,认为离云计算改变生活还有很长一段距离。
腾讯云为了加速争夺在云计算市场的份额和话语权,持续加大力度面向中低端市场做运营推广,不断推出一折采购节、拼团活动等羊毛福利来吸引更多的用户,就带来服务器过载、稳定性变差、用户流量下跌的问题,而在公有云上,低端用户的集聚实际上会影响到普遍用户的服务体验。
第二,腾讯云平台管理能力有欠缺。这次事故中,即使腾讯云有三副本备份策略,但操作失误还是造成副本丢失,夸张点说“不怕神对手就怕猪队友”,这个问题本来应该通过运维上的流程和规范来避免的。
2014年11月,微软Azure云服务出现全球大范围宕机事件,经复查,原因是微软为了减少CPU开销,提升存储服务性能,在部署变更时犯了两项操作上的错误:执行标准的跳跃式部署策略时有些细节部分没有涉及到;未完成大规模验证的情况下,配置被错误地启用,导致Azure Blob存储前端进入死循环。
当前大多数云服务商主要关注点都是研发,对网络、IDC、运维重视程度不够。但哪怕研发做得再强,运维管理上的缺失依然会成为云稳定链条中的短板,后卫和守门员不行的球队又能强到哪里去呢?
图来自星光电子网各省(直辖市)电子信息产业门户网站《腾讯云加入LoRa联盟成为发起成员,推动物联网到智联网进化》
第三,出现问题后的应急和后备方案严重不足。就像没有绝对安全的交通工具一样,云计算也不可能百分之百不出问题。随着云计算业务需求的复杂化、碎片化,云计算应用体系更加复杂,以及云计算+AI等新业务种类的出现,云计算出现风险的场景变得越来越多。这时候如何在出现故障之后帮助用户止损就变得尤为重要,这就要求云服务商提前搭建应急预案,不断更新容灾技术与容灾机制,并且在出现故障时能支持用户快速、低成本搭建应急架构。
马云曾在一次高峰论坛的演讲时提出,“人类正在从IT时代走向DT时代。”,在以大数据技术为代表的DT时代,数据资产是企业的核心资产,丢客户的数据等于直接断人家的命根子,丢创业公司的数据等于直接把对方扼杀在襁褓里。作为腾讯少有的to B之一,和其它to C的主营业务比起来,腾讯云显得有些过于急功近利了,用户口碑的下滑反而让人对其后劲产生质疑。
作为具备超强云服务能力的大型云服务商,腾讯云应该秉持“能力越大,责任越大”的理念,不断夯实安全能力,把向用户提供稳定可靠的服务当做重中之重。毕竟不安全的云,再大也是虚的。
以上是关于腾讯云到底哪里错了的主要内容,如果未能解决你的问题,请参考以下文章