细分MTTR对模块化UPS系统可用性的影响

分享到:

 摘要:本文介绍了模块化UPS在物流、安装和可维护性的优势,然后细分模块平均维修时间(MTTR)的组成对模块化UPS可用性的影响,最后计算出在模块不同MTTR时系统的可用度。

Abstract:The advantage of modular UPS on logistics and installation and maintainability are introduced in this article. Then give analyzing for the subsetion of MTTR. affect modular UPS system availability .Finally calculate modular UPS system availability for different MTTR of module.

    1.前言

    模块化可以简化设计,缩短新产品开发周期,提高生产效率,提高产品质量、可靠性和维修性,具有良好的效费比,是科技成果产业化的有效途径。

    通信用直流电源系统的成功应用为模块化UPS树立了榜样。DSP芯片和控制技术的发展为模块化UPS提供器件基础和技术保障。模块化UPS系统关键之一是各模块的故障可隔离性[1]。

    1.1 模块化UPS装卸运输安装的便利性

    集装箱,一个美国货车司机1946年的发明,引起运输方式的革命,使全球货物运输业发生了革命性的变革。

    传统集中式UPS较重又不能被拆分,它带来如下不便:立式的包装限制了运输车辆的选择;装卸、就位需专门的大型吊装车;机房门、过道、电梯载重、楼层承重时有受限。因此,2台传统集中塔式UPS构成“1+1”系统或者多台构成“N+1”系统都不能被称为模块化UPS系统。

    而UPS模块化,则可化整为零:模块可以分开包装,机架可以卧式包装及运输。对于机架,(2~4)人即可搬运,对于模块,(1~2)人即可轻松搬运和安装。

    能带来便利的UPS系统才能叫作模块化UPS系统。

    1.2 模块化UPS的可维护性

    集中式UPS一般需要资深工程师携带大量的备品备件现场维修,需要时间长,费用不菲。

    对于模块化UPS系统,UPS模块本身具有热拔插功能,可以在不中断负载供电以及确保人身安全的前提下更换故障模块。用户备用模块或即使空运模块到故障现场,将使维护变得方便和低成本。

    模块返回工厂维修与现场维修相比,不但维修成本更低,而且维修质量更加可以得到保障。

    模块化对于人类最突出的贡献莫过于减少人为错误。研究表明,有50%-60%的数据中心停机是由人为错误引起的,而且减少人为错误体现了系统的一个最大的收益--提高可用性。迄今为止,在提高可用性的所有途径中,减少人为错误是最行之有效的手段。

    2 模块化UPS的可用度与MTTR概念

    对于一次性使用的设备,如不可回收的人造地球卫星上的通讯设备,仅关心其可靠性即可。但是,对于如UPS等大多数可修复设备,只用可靠性指标描述其性能便不全面。用户不但要考虑故障发生的概率,而且还要考虑修复时间。

    可维护性(Maintainability),其含义是在规定的时间内完成主动修复的概率。
可维护性用平均维修时间MTTR(mean time to repair)来表示。它是设备从发生故障瞬间开始不能完成规定功能到通过维修而重新恢复规定功能所需的平均时间。

    修复率μ是MTTR的倒数: 

    可用度(可用性)是一个可维护性指标,为系统在使用过程中,可以正常使用的时间与总时间之比。可用度A与平均无故障时间MTBF(Mean time between failure)和MTTR的关系是:

 

    可用度不仅与MTBF有关,而且与MTTR有关。因复杂系统的功能多、元器件多则MTBF降低。在MTBF不变的前提下,减小MTTR能有效提高系统的可用性A。

    3 MTTR时间细分

    MTTR是指故障发生到恢复功能的时间t,它由故障发生到故障自动检测时间t1、故障被检测出到维修工接到通知的时间t2、后勤保障时间t3、故障维修时间t4、恢复时间t5等多个时间段组成,即 t= t1+ t2+ t3+ t4+ t5,见图1。

   

图1  MTTR的时间细分

    3.1 故障发生到系统自动检测出故障的时间t1

    要求UPS具有完善的自我诊断功能,定位发生故障的位置和类型,限制故障扩大并给出故障信号。对于模块化UPS要求故障模块能自动保护退出系统,不能影响系统其它部分继续正常工作。一般来说,t1时间是ms~min数量级。

    3.2 故障被检测出到人们知道时间t2

    检测出的故障通过合适方式,如手机短信实时通知维护工。t2时间一般是s ~min数量级。

    3.3 后勤保障时间t3

    后勤保障时间是指人(维修工程师)和物(备品备件)从获知维修通知到抵达现场开始维修时间。t3时间是hours~days数量级。

    人:最快是用户的维护工程师自己可以解决,其次是厂家当地维修工程师以及厂家工程师的快速响应能力(受厂家服务响应能力和交通工具影响)。

    物:用户现场是否准备有足够可以替换的备品备件,如设备现场及厂家当地办事处没有备品备件,则需要厂家派人携带或者委托第三方运送备品备件到用户设备现场。对于模块化UPS,因不同容量的系统由相同的模块组成,准备一种模块即可。而对于传统集中式UPS,可能的故障部件无法定位和预计,为了提高修复概率,往往需要准备较多种类的备品备件。

    案例:某国外品牌传统集中式UPS出现故障,时值年底,正值企业年底冲刺满负荷生产。因天气寒冷,电网负荷大,电网频繁停电并不可预测,而一旦停电,则流水线上芯片将全部报废,用户非常焦急。而当时UPS厂家在亚洲只有泰国曼谷办事处,并且需要派资深工程师携带大量的备品备件才能来华现场维修。签证需要时间,老外资深工程师签证、差旅、维修等费用也不菲。用户受不了漫长的等待造成停产带来的巨大损失和昂贵的维修报价,可后来检查结果非常意外:实际故障发生部位与厂家所谓资深维修工程师准备空运来的备件完全不同。

    如果是模块化UPS,用户备用一个模块或即使空运一个模块也不需要很长时间。

    即使是模块化UPS,需要多大容量(对应重量和尺寸)的模块比较合适,这就需要从物流可获得性以及现场更换便利性等方面加以考虑。

    3.3.1国家标准GB 12330-90体力搬运重量限值

    表1  中华人民共和国国家标准《GB 12330-90体力搬运重量限值》(单次重量,单位kg)

性别

搬运方式

推或拉

15

50

300

10

20

200

 

    该标准体现我国对搬运操作工的劳动保护,同时也回答了单个物体一般多重才是适合搬运的。