一个数据中心的良好运转离不开苦逼的运维人。一个数据中心的日常运维工作基本涉及到了IT相关的所有专业,从数据中心机房的设计、暖通、动力、服务器、存储、网络、综合布线、系统、应用、开发、数据分析、数据挖掘。。。基本你能想到的相关IT技术在数据中心都能够一一找到。数据中心俨然就是一个IT技术的聚集地。
不过数据中心是IT技术的聚集地,但是并不一定是IT技术的高地。其实你很难在那些身负重任的数据中心内部找到非常前沿的IT技术。前面我有提到,数据中心需要高可靠性。而正是这一要求,注定了所有的数据中心在日常运维工作中首先都要追求一个字,那就是“稳”。
只有那些经过时间检验、稳定性高的IT技术才会被数据中心采用,因此往往越重要的数据中心如金融行业等其IT技术相对外界显得越落后。比如现在很多银行的软件开发中心仍在采用比较古老的cobol写代码。不过近年来随着互联网企业的飞速发展,大量的新技术也在互联网企业大胆启用。
而数据中心求“稳”的特点直接决定了数据中心运维人员的工作特点。数据中心所有的运维工作都要以“稳”为前提,因此没有百分百的把握不要轻易的在运行环境下搞各种操作,没有梳理好可能影响的设备、系统、应用,不要轻易的作出割接、变更、调整的决策。
工作这些年接触过很多厂家的技术人员,特别是那些刚入行不久的技术人员经常会问一个问题:我这么简单的操作为什么要等半个月?为什么半夜两点才能做?明明一分钟就完事了为什么搞得这么复杂,有点小题大做吧?!
其实答案也很简单,不管是大型的数据中心还是小机房的IT运维人员都要记住,数据中心容不得一点马虎。作为海量数据的载体,你面对的实际上不是一台机器、一个应用,二是通过数据连接的成百上千的用户。几乎所有重要的数据中心割接、变更、调整都是安排在零点甚至2点以后,并且会提前通知或公告客户,目的就是将可能造成的影响降至最低。
很多人说运维人很苦逼,其实苦逼的并不是运维本身,苦逼的是协调本身。很多人误以为运维人只跟机器打交道,实际上情况反而相反,运维人大部分时间是在跟人打交道。如果一个运维人天天忙得半死,围着机器、系统团团转,那问题就严重了。一般来说,数据中心的设备、系统都比较稳定,因此当设备、系统稳定上线后,日常能做的工作无非就是健康检查、分析及一些常规的操作。有的人会说,你重要的操作都是安排在凌晨,那你白天肯定很轻松了。实际上这是忽略了运维人另一个重要的工作,那就是开会!
一个一分钟左右的设备版本升级操作,你可能要开好几个大大小小的协调会、分析会,你要把可能影响到的所有系统、应用全部列出来,你要把可能涉及到的所有风险点都要全部列出来,哪怕这个风险概率才1%。等你梳理完这些风险点、拉出清单后,你就要去协调清单上涉及到的各大部门开会。通常情况下,开一次会还不能定下来这个操作能不能做,毕竟第一次会主要还是搜集下大家的意见。如果业务部门说最近正好是双十一,容不得出现一丝差错,而你跟他说可能有1%的风险,那不好意思,这事情就要往下推。越大的公司往往流程越复杂、分工越细,涉及到的人员及业务部门越多。这一点医院的手术和运维倒是很像,医院哪怕做一个很小的手术,都会告知家属存在一定的风险,要家属签字知晓。
其实我一直认为像很多大型的数据中心运维人员应该将自己定位于数据中心的项目运营分析管理人员,而不是简简单单的技术人员。实际上很多数据中心的技术工作厂家支撑人员都帮你做了,很多数据中心都购买了大量的厂商服务及维保服务。打个比方,你在数据中心负责华为核心交换设备的,单单该设备来说,你在数据中心里面你是专业的。但是与华为的工程师一比,你掌握的很多技术就相对要弱的多。这也很正常,人家是厂家,这个设备就是他们造出来的,他们天天各地处理故障,见过的各种现象远比你见得多。实际上,对于一个运维华为核心交换设备的这位运维人员来说,实际上他执行的更多的是使用和养护工作。
下面我来做一个很简单的比喻,一个数据中心的运维人员就好比一个单位的司机,你平常需要做的,就是熟练掌握你所开的那辆车的操作流程、了解车的性能、怎么开这辆车更合理、什么时候去接领导、让领导坐这车舒适度达到最高。能做到上述几点,你就是单位里一个合格的驾驶员。如果平常没事干再把车里车外擦的蹭蹭亮,路上从来没有剐蹭,天天准时把领导送到家和单位,那你就是一个优秀的司机了。
但是真的车出了毛病了,比如开起来抖动、漏油,这时候你肯定要开去4S店修理了。如果是你自己的车,那就是找个时间去4S店修车、付钱、提车、回家一气呵成。但是单位的车就不一样了,正常情况下你要修车,要给领导说明情况,给车队长说明原因,然后在单位内部填写相关的维修申请,经过车队长、领导同意了才能开去修。这是为什么呢?因为你修这车要报销啊,报销就要有依据,要有来龙去脉。而除了提交修车申请,你还要与4S店大概沟通下修车需要花费的时间,如果时间很长,当天你修不好,那么你就要去和车队长说明下情况,协调看看还有什么车可以开去接领导。而如果领导正好有非常重要的事情需要用车,而你这个车虽然有点抖动,但开起来暂时满打满去,一时半会也不会坏在路上,那么你这修车的时间就还要往后挪一挪。最后车修好了,你还要拿着4S店的发票去原单位报销,直到报账结束,这整个事情才算做完。
这修车的整个过程,驾驶员就是数据中心的运维人员,汽车就是运维人员日常维护的对象,4S店就是厂商技术人员。对于4S店来说,他天天都在修同一款车型的车,不管什么毛病他都立马能够找到解决对策,他有相关的零配件,只要有钱都能给你修好,最坏的结果就是给你换台车。4S店关注的是车的本身,你驾驶员技术再好也只是开车技术好,真要修车,你就不一定修的动。对于驾驶员来说,为了修这个车,他要花很多的时间去问4S店、去报告领导、去找办公室、去找车队长、去4S店、去报销。。。而这中间花的时间通常情况下远比修车本身花的时间多。
传晨科技全数字化网络架构 正在改变 IT 部门、企业,乃至整个行业的工作方式。