DevOps是如何让6万用户失望的?
Posted 云头条
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DevOps是如何让6万用户失望的?相关的知识,希望对你有一定的参考价值。
作者简介:Sylvain Kalache是霍伯顿学校的联合创始人,之前是LinkedIn的高级网站可靠性工程师。他是Slideshare初创公司小团队的一员,也是最终促成公司在2012年被LinkedIn收购的重要成员。
Slideshare客户支持,2012年左右。
早在2006年的时候,我还是Slideshare网站的一名运维工程师。我所在的那个团队推出了一种DevOps模式,以期加快流程,并比我们的竞争对手领先一步。
那时我们还是一家小小的初创公司,员工总数不到20人,当时着力构建的工具后来成了互联网上最成功的专业内容共享工具之一。那时我们不是很懂DevOps,但是它确实是我们取得成功的关键之一:我们每个月的不重复访客迅速达到了2900万,最后2012年被LinkedIn斥资1.19亿美元收购。
我们采用DevOps做法的目标是,打造一支更团结一致的团队,并且获得最高的效率。开发团队分散在旧金山和新德里,基础设施相当复杂。DevOps环境促使每个内容贡献者开发和贡献产品的不同部分,所以它让人们便于交流、帮助对方,从而有助于克服地域障碍。
它还帮助我们将技术知识传播給最合适的人员,那样如果有人外出度假或者离开公司,带来的影响也很有限。
然而,我们在DevOps方面取得的成功不是没有一些失败,此后这些失败案例成了宝贵的经验教训,我经常拿来与霍伯顿学校(Holberton School)的工程系学生一起分享。
从DevOps失败汲取的教训
DevOps背后的主要概念之一是,对于工作职责的归属有一个更清晰的认识;为此,你需要让开发人员可以访问/使用他们通常无法访问/使用的一部分基础设施。在SlideShare,工程师可以访问/使用生产环境的服务器和生产环境的数据库。
当时一名软件工程师在搞一个与数据库有关的项目,他在试用一款工具,这款工具能够以图形化方式来探究mysql数据库。他决定使用该工具重新组织数据库列的顺序,以便数据在他看来更有条理化。可是他不知道,此举也改变了实际数据库上列在生产环境下的顺序,结果锁住了数据库,导致Slideshare.net瘫痪,结果让试图访问网站的6万多个用户无法正常使用。发生了这个问题后,那个人并没有认识到工具实际上在执行操作,最后大家群策群力,花了15分钟才查明问题的根源出在哪里。
这次故障給人的两个启示如下:
虽然DevOps一再要求每个人对产品/服务周期的每个步骤带来影响,但是每当你允许访问某系统都要冷静想一想,确保这确实很重要,这是个好的做法。在数据库故障这个具体情形下,我们后来认识到允许访问生产环境的数据实际上一点都没有用处,实际上还非常危险。开发人员本可以使用试运行数据库,获得一模一样的价值,但是給公司带来的影响却要小得多。
最好对开发人员进行教育,以便了解基础设施的工作机理,这点很重要。许多开发人员之前从来没有接触过生产环境的基础设施。DevOps基于的一种工作方式显然更注重人与人之间的联系。你别指望每个人都自然而然知道隐藏的规则。这就是为什么上岗培训(onboarding)应该是强制的、也是至关重要的。
云头条编译|未经授权谢绝转载
相关阅读:
距离发布会只剩4天,戳阅读原文,可查看七牛直播云发布会详情!
以上是关于DevOps是如何让6万用户失望的?的主要内容,如果未能解决你的问题,请参考以下文章
用DevOps理念改变运维行业的优维科技再获B1轮数千万级融资
喜讯 | 用DevOps理念改变运维行业的优维科技再获B1轮数千万级融资
在 Azure DevOps 上,用户如何能够访问组织的每个项目?