生命的延续——献给数据中心 产业观察

我们都知道,人到中年就会感受到老化的威胁,在社会中的地位受到挑战,部分工作为青年人接替等等数据中心行业蓬勃发展的今天,对比人的这种状态,一些老旧数据中心也正在遭受着中年危机,受自身先天条件限制和行业环境变化的影响,老旧数据中心在生命周期的关键阶段都面临了哪些的问题?

首先面临的就是生命周期的问题,数据中心生命周期整体成浴缸效应,工程交付后前两年,主要为系统及设备自身磨合,以及维护人员和整体系统的早期磨合,故障率可能会稍高一些,待磨合期后数据中心进入一个较为稳定的运行期。数据中心生命周期的最后阶段,由于各设备、辅料、器件进入生命周期末端,同时数量较少的数据中心也达到了设计满载,数据中心整体也相应进入了故障率较高的老年阶段。

第二、近年来围绕互联网、大数据、人工智能等相关的业务快速发展,当初的规划设计逐渐不能满足高速增长的业务需求,老旧数据中心面临扩容改造来满足业务增长,(老旧数据中心在它服役的这些年中,或多或少的经历了一些扩容及改造。)而后期的扩容改造只是在末端或是局部设备方面,导致和最初的规划设计不匹配,或者违背了原来的规划设计要求,使得老旧数据中心存在潜在的隐患。

第三、老旧数据数据中心在建设之初,受技术、行业标准、行业整体水平的局限,投产后即存在着不可预估的风险。

第四、对于按照T4等级规划建设的数据中心,后期主要面临生命周期问题,可结合T4等级数据中心容错、可扩展性、可维护性等特性,制定并预演好改造、割接方案,对系统进行整体升级改造,以达到客户对连续性的要求。

 

 

建议运营者,可从如下几个方面来摆脱困境:

1) 需要对所运营的老旧数据中心进行一次全面的系统级风险评估。内容涵盖规划设计施工工艺、隐蔽工程、设备性能、资产信息(涵盖资产年限、容量、技术指标等)、整体运行环境等。

2) 针对风险评估的结果,并结合数据中心自身特点和行业经验进行等级划分,并逐步进行整改。

3) 针对风险评估的结果和行业处置经验,对数据中心运维手册、操作手册、应急手册进行相应的调整,通过运维手段规避风险。

4) 系统改造或设备更换时尽量采用目前行业主流的方案,同时针对行业经验和新规范要求重新部署或配置。

机房风险评估实际操作起来并不是对照标准检查一些指标性参数(如温湿度、静电、尘埃等),而是从规划、设备性能、工艺、运行环境等多维度进行风险排查。数据中心风险评估案例会遇到各种情况,下面是几个较为严重的小案例:

某项目柴油发电机,在负载在20%以内时发电机工作一切正常,负载大于20%时,油机瞬时自启后,油机带载运行喘震、水温超限停机等严重事故。经现场检测、排查发现由于柴油发电机室进气系统不完善油机瞬启时因发电机室无等量新鲜空气同时补入,油机进气量不够而引发的事故。

某项目检测评估时发现,机柜进回风温度不合格。经计算核实,单个机柜规划时按照3Kw设计,供电系统UPS容量、各级线缆、配电及末端都符合设计容量要求,但由于制冷系统设计规划的问题,使得该机房平均功率密度最大只能扩展到1.5Kw,这样的供需矛盾,只有将按照冗余配置(一主一备,轮循运行)的两套制冷设备同时开启,才能控制机房温度。但如此运行模式,机房空调将丧失冗余。一旦有一台空调故障,机房温度短时间之内将超出IT设备允许温度,造成设备宕机。

某数据中心低压配电室检查发现,低压进线柜(机房总进线)A相线缆与金属柜体、发现严重弧光短路烧灼痕迹。后经检测发现此线缆为施工时长度不够而续接的线缆,当线缆接头处受到震动或载流较大时,A相线缆与金属柜体发生短路放炮现象,造成配电室重要设备烧毁的严重事故,存在重大风险隐患。

国内高等级数据中心都是近10年左右大规模发展起来的,目前数据中心整体正处于中青年时期,但个别设备已进入中老年阶段,如UPS等。大部分运营者都还未进行过整体性、体系化的风险评估工作,都是遇到问题解决问题,见招拆招。

设备及材料老化与其运行环境有较大的关系,比如导线绝缘材料热老化寿命与温度呈指数关系,如下表:

 表4内容摘录自杨守生、任 畅、康 茹、陈 敏《ZR-BV阻燃电缆绝缘材料热老化寿命研究论文》

国内部分数据中心整体运行负载率较低,系统整体离规划设计满载运行较远,设备和线缆整体利用率较低,使得设备或线缆老化慢,寿命较长,目前还未到集中爆发阶段。随着单位负载密度的逐步提高,设备及辅料会进一步得到运营人员的重视。

随着中国信息化社会的快速推进,以及云计算、物联网等产业的崛起,数据中心作为终端海量数据的承载与传输实体,每年的投资增速日益加快,2016年中国数据中心保有量约为5.6万个,总面积约为1650万平米,预计到达2020年,中国数据中心保有量将超过8万个,总面积将超过3000万平米。那么,在未来数据中心会陆续面临各种运行问题,希望整个行业能够重视数据中心风险评估,做到和人体检一样,周期性和计划性,防患于未然。(本段文章数据引自ICTresearch咨询公司研究报告)
结语:
       故障隐患起源于规划设计、改造、运行管理的各个阶段,需要专业技术人员对系统状况进行全面的测试评估,并且贯穿数据中心生命周期的各个阶段。

不同机房的情况总是千差万别,评估的结果会大有不同。面对一个专业的综合性问题,我们不能得出一个模板式的答案。只有周期性和计划性对数据中心进行体检,才能发现和解决故障隐患,并提出有效的改造和扩容规划方案,从而降低投资成本,使资源得以合理利用。


作者:
中金电通 王山中

北京汇信中通咨询有限公司  版权所有
电话:010-62361332  传真:010-82022211  客服邮件:service@ictresearch.com.cn
地址:北京市西城区有研大厦A座306室  邮编:100088
京ICP备10011962号