您现在的位置:首页 >> 足球外围网 >> 新浪科技 >> 内容

百度的高级工程师颜小云: 数据中心基础设施运维最佳实践项目分享

时间:2019/3/12 12:02:21 点击:

  核心提示:   9月27日,由开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午的ODCC数据中心解决方案...

  9月27日,由开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午的ODCC数据中心解决方案分会场上,百度的高级工程师颜小云发表题为“数据中心基础设施运维最佳实践项目分享”的演讲。以下是演讲全文:

百度的高级工程师颜小云: 数据中心基础设施运维最佳实践项目分享

  我叫颜小云,来自百度系统部。我首先感谢ODCC提供了这样的平台,让我们有机会去做这样一个项目数据中心基础设施运维体系项目分享的项目,在做的过程中得到了像朱总的大力支持,而且今天又提供了这样的机会让我和大家分享,所以在这里首先还是对ODCC还有所有参加过这个项目的厂家和个人表示由衷的感谢。

  我今天给大家分享四个方面的内容,第一个,谈一下项目开展的背景,就是我们为什么要做这个项目,第二个,看一下项目准备实现的目标是什么,或者项目开始的时候定的什么样的目标,第三个,是大家比较感兴趣的,这次峰会我们有什么样的成果可以发布出来展示给大家的,最后一个是我们下一步的计划。

  看一下这个项目的背景,其实在过去的一年我们15、16也好,国内外的很多数据中心知名的公司都发生过这样那样的事故,每一次事故其实影响都挺大的,其实我个人更感兴趣的是,这么多事故它对于我们数据中心的影响是什么?大家看右面的这个图,这是16年初美国一家调研机构联合(英文)一起做的调研,他们得到一个结论,是银行业每一次宕机损失近一百万美金,大家可以看到通信、医疗、电子商务的行业,每一次的损失都超过了九十万。接下来我们会想这样一些宕机的事故,造成那么大的损失,原因是什么,同一个调研报告里他们也做了排序,排的第一个是电力系统故障,第三个是我用红色的勾出来,人的错误也占了2%,所以我个人认为这是一个很高的比例,但是除了这个公司像其他的调研机构也发布了一些调研报告,在13年的时候阿富汗做了一个调研报告,大家可以看到里面提到的所有事故有67%的比例,可能每一个运维人员没有按照标准操作的流程去触发了哪些设备,造成了某些事故,反过来讲,并不是所有运维的人员一个好的运维人员他又能避免我们数据中心的一些比较严重的事故,在数据生命周期的前端和末端是很容易发生设备故障的,很有可能在数据中心刚刚投入运营的时候,有些设备用着用着就坏了及因为调试的原因,像这样的情况并不是所有的事件都会引发事故影响我们最终的业务的。这样的事件里有41%的事件是因为我们数据中心有冗余,一个设备损坏并不是造成一个故障,另外我想说的是,还有29%是因为运维人员及时的干预把故障切除掉了。

  举一个例子,都是真实发生的,去支撑我们刚才说的,第一个是很多的业内同行都知道,西安有个变电站因为施工原因没有按规定把操作电源的电池用好,造成了电气系统的不工作,那么它的电流系统这个故障没有及时的被切除,最后整个变电站爆炸,影响了超过十万人的供电,这是今年在西安正式发布的事情,网络上都可以搜索到。这次因为运维的时候没有按固定操作。还有两个好的例子,我们曾经有一个运维的人员巡检的时候,因为数据中心其实在水泵房是比较吵的,但是因为这个同学比较有经验,他同时发现有两台水泵有异响,最后排查发现都是因为连轴器有故障,后来都维修了,还有一个例子,我们有一个数据中心它是在一个大的园区里,这个园区除了我们自己的数据中心还有其它的企业也在用电,另外一个企业跟我们一样也是从同一个变电站下来的,但是有一次另外一个变电站接入的时候发现了一个故障,这样子反过来引起了我们数据中心这里面高压线的异常,当然经常情况来讲会有保护的动作,把故障切掉,从另外一个角度供电,但是恰巧因为可能是线比较久了,保护系统失效了,这种情况下我们运维人员快快速的切入,几分钟就切掉了,把有故障的切掉了用另外一边的供电,这样子保证了我们机房的正常运行。所以我觉得刚才我想可以用一句话总结,就是一个好的运维团队可以帮助我们,如果他非常有经验,可以帮助我们避免故障,但是如果一个不好的运维团队,可能会促成故障。

  所以年初的时候我们就在思考,我们如何去总结数据中心运维这方面的最佳实践,把人的脑子里面的运维经验总结出来传承,从而达到避免运维事故,发现一些潜在的事故,还可以把经验积累起来快速的处理事故,避免影响到我们的业务。所以这是我们开展这个项目的背景,所以在今年5月份的时候启动了一个项目,就是数据中心基础设施运维,那个时候还不叫运维体系,之前我们叫数据中心基础运维最佳实践,我们想把最佳实践总结出来,这个项目刚刚建立的时候, 我们组建了项目团队,包括三大运营商,包括BAT。建立之初我们就定了一个目标,一个是我们叫无规矩不成方圆,我们希望建立一个完善的运维框架,从最开始的规划开始,一直到最后监测一个框架从方法论的角度成体系的规范我们的运维行为,第二个,他山之石可以攻玉,我们想建立一个交流的平台,大家坐在一起互相交流,用专题的方式总结分享出来。

  峰会目前为止我们的成果是什么?刚才我们说了运维体系的框架我们已经搭建完成,整个体系构建了八大方向,从最开始的规划设计,我们的运维同学应该关注什么方向,测试与验收,比如组织管理,维护管理,安全合规运营管理,包括最后的工具支持,还有节能应该怎么建PCO怎么做建设,怎么建立他们之间的接口,数据怎么打通等等,我们都会把它放到整个体系里,分成八大方向,那么分下来以后,再往下我们还建立了很多的二级目录和三级目录,我这里举了一个例子,一级目录八大方向里面的维护管理,下面还包含很多在维护管理大的方向下,还有比如说监控与巡检,预防星维护管理,包括故障处理,那每一个二级目录下我们还会再分成每一个小的运维场景,故障处理会分成故障怎么分级,故障怎么通报,鼓掌怎么样快速的处理,一直到最后鼓掌怎么分析,分的很细,这样总结在一起,就形成了八个大的方向39个二级目录,105个三级目录的运维场景,所以这是我们整个框架的情况,这是我做的封面,整个框架加上前言大概有10页的样子,大家可以在ODCC的公众号可以下载到了。这可以说是比较全面的覆盖了数据中心基础设施运维这块的体系和框架。当然具体的一些最佳实践在这次峰会我们也做了两个,一个叫故障出席的专利,还有一个是标志标签管理专题,我接下来对故障处理说一下运维最佳实践发布的文本是怎么组织的。

  其实数据中心很重要的一个工作是去处理故障,我觉得对处理故障来讲这个专题我们看了分了四个三级目录,每一个三级的目录我们都把它分成了三个部分,比如故障分级来讲,第一个要考虑的,比如做设计的时候我们有什么样的运维难点,讨论的时候会想到每一个用户场景难点是什么,我提出来,比如故障分级依据什么样的标准,这是我们第一个考虑到的,到底是分三级还是四级,什么样的标准分级,这是一个运维难点。我们针对这个难点会提出从我们的运营商角度去看,我们有一些什么样的最佳实践在里面,我们是怎么分析的,以什么样的标准区分的,最后还会有一些实践的例子,从这个案例上我们也会写出来。所以针对每一个故障,每一个产品我们都会做成这样的三个部分。

  对故障处理,我们的运维难点就是依据什么样的难点对故障进行分析,下面会有最佳实践,不能把它全部的列出来,大家可以到网站上下这个,比如说一级故障是指什么,二级有哪些,整个的文本大家可以去看看,最后一个是案例赏析,会做一个表格,大概总结一下现在我们市场在用的一级故障高压双路市电断电,一级故障还有列头柜双路断电,还有常见的二三级故障是什么,我们都可以做一个表格文本贴到最佳实践上,大家不仅知道体系应该怎么建,还可以知道里面每一块的运维场景,因为BAT运营商他们是怎么做的,让他们知道具体都是怎么做的,所以这是这次峰会上发布的成果和框架体系,再加上我们两个专题,除了故障之外的。

  还有下一步的计划,大概有三个,第一个是我们的月度例会,这个框架搭完了以后会采用例会的方式把成员召集到一起选择一个比较感兴趣的专题,咱们现在业内一些下面的电路监控系统是怎么样的接法,有什么样的协议,这些大家可能自己想的时候不是那么明白,我们可以把大家叫到一起,如果把管理系统的建设架构做一个专题,我们可以讨论,然后以每个月为间隔,我们推送一篇原创的最佳实践的用户专题出来,在ODCC公众号上。

  第二个,如果我们需一个月推一个最佳实践,到明年峰会的时候可能就有12个或者11个最佳专题了,我们可以把它整理成册,甚至以IDC的方式发布,甚至后续可以考虑做一本书出版。

  还有成员纳新,我们现在有七价项目成员的单位,我们也是希望有更多的业内通许加入项目组,特别是我们做世纪互联,在一线有非常丰富的一线的数据应用的经验的企业可以加入到我们的项目组,也欢迎大家线下可以跟我联系,谢谢大家。

  关注中国IDC圈官方微信:idc-quan或微信号:821496803我们将定期推送IDC产业最新资讯

  根据研究公司IDC数据显示,自2000年代中期首次亮相以来,今年10G以太网交换机将首次损失市场份额,这是因为服务提供商和超大规模客户逐渐开始部署更快的带宽40G和100 G交换

  数据中心建设规模日益增大,采用大型的制冷解决方案,系统虽然复杂,但是能效高、节能效果明显,日益成为主流。

  在7月5日召开的百度AI开发者大会上,百度集团总裁兼COO陆奇宣称“Apollo是最强的自动驾驶生态”,背后的PPT上共有50家Apollo合作伙伴初始合作伙伴在列,其中就包括微软。今

  自2016年以来,围绕云计算与大数据的市场竞争日益激烈。面对愈发复杂的市场格局,以及日益强劲的竞争对手,谷歌显然无法再“故作镇定”。为与亚马逊和微软相抗衡,谷歌近期

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 足球外围投注(trident-medical-sz.com) © 2019 版权所有 All Rights Reserved.
  • Email:www@laoy.Net 站长QQ:10086 移ICP备10086号