- 数据中心UPS供电系统设计与故障处理
- 周志敏 纪爱华编著
- 7964字
- 2020-08-26 22:35:40
1.2.2 数据中心供电系统的发展趋势
承载着更多数据业务需求的下一代数据中心,其技术集成度高,数据量大,网络容量大,在为企业带来便利的同时,也不可避免地存在三大软肋。
① 随着刀片服务器与虚拟化技术的普遍应用,机架的功率密度越来越高,致使供电系统与服务器冗余电源系统往往不匹配。传统配电系统的边缘地位导致实际使用中50%以上的故障无法预料和监测,更难以及时处理,供电不可靠使数据存在丢失的风险。
② 由于数据中心的设备部署密度越来越高,机架内的服务器密度也呈现加速集中的趋势,这导致了数据中心的总体能耗越来越大,散热需求也越来越高。如何有效地散热,确保良好的运行环境,成为数据中心管理者面临的重大挑战。
③ 由于数据中心的设备数量越来越多,机房基础设施越来越复杂,环境控制要求越来越高,所以,数据中心内所有设备及环境量的日常运营数据报表越来越复杂。如何有效地管理数据中心IT基础设施,已经成为数据中心运营面对的和必须解决的问题。
1.数据中心供电系统存在的问题
当前的已建和正在计划建设的信息中心基本上是按传统的观念和陈旧的模式设计建造的。通过对数据中心建设水平和运行状况的市场调查,概括出存在以下几个方面的问题。
① 使用UPS提高供电系统可用性的观念已被绝大部分用户所接受。在国民经济各个领域和部门新建和改建的数据中心供电系统中,几乎都已建立或正计划建立UPS供电系统。这说明广大用户对借助UPS供电系统提高供电质量的重要性已经有足够的重视。但系统设计建设水平绝大部分处在UPS应用的初级阶段(在系统中简单地加入UPS设备),在电网正常时成为系统中可靠性的薄弱环节、新的故障源和维护工作的难点。
② 安全性和可靠性是当前数据中心供电系统最主要的问题。通过对数据中心供电系统故障情况的调查和分析发现,系统故障总数中的50%~70%是由于配电系统中其他环节和设备的质量问题、安装问题、人为操作和维护问题引起的,或者由于这些问题而诱发关键设备产生误动作乃至发生故障。UPS只是涉及供电系统可靠性问题的因素之一,仅提高UPS设备的可靠性,是不能从根本上解决整个数据中心供电系统安全性和可靠性的问题的。
③ 在数据中心供电系统发生故障后,由于系统过于复杂、产品供应商反应速度慢、维修人员的技术水平和工作经验不足、备件储备和提供情况不足、故障原因的查找和分析滞后,使系统得不到及时迅速的修复,甚至找不到引发故障的真正原因。传统设计方法中各种类型设备的简单堆砌和多供应商状况不仅大大影响了数据中心供电系统的可靠性,同时也是发生故障后不能尽快修复的重要原因之一。
④ 在一些数据中心的UPS供电系统中,UPS具备的智能管理和通信功能没有得到充分的发挥。当今的UPS已经从原来所谓的独立电源设备发展成具有多种通信方式管理和与IT系统无缝集成的网络设备,但是在实际应用和运行维护中,对系统和设备的智能管理和通信功能的应用率只有20%。这种现象与用户管理水平有关,也与系统和设备厂家的管理集成化程度低和兼容性差有直接的关系。
⑤ 通过对多个数据中心供电系统的调查,发现很多已经在运行的UPS供电系统在设计上不规范,系统配置不合理,存在着诸多隐患。例如,系统中所有设备和环节都是串联的,形成多个单路径故障点;系统中各相接的设备输入输出阻抗不匹配,因相互影响而降低可靠性或不得不降容使用;系统中配置了输入谐波电流大和启动冲击电流大的设备,不仅污染电网,而且在系统内部形成严重的相互干扰;系统中电力传输线(包括数据传输线)过长且布局零乱,易产生干扰和发生人为事故;系统中配置了大量的断路器,由于产品质量问题或配置不合理,使系统有时发生不明的故障;系统中零、地电压差过大,零、地线系统设计和线缆选用不符合标准等。
⑥ 配置UPS设备不是从UPS的输出电性能指标、输出能力和可靠性指标、对电网的适应能力、系统配置能力、智能管理和通信功能、可维护性和可扩充性、可靠性和可用性等方面对其进行全面的考查,而是把 UPS能达到的某些最高指标作为选用的指标,简单地以UPS电路结构形式定优劣,忽视UPS对电网的适应能力和电力污染问题等。
⑦ 在UPS供电系统各类故障的起因中,人为原因造成的故障占很大的比例。人为原因可归结为维护人员对所配置的设备的基本性能了解不够、对系统和设备监测监控信息和显示功能不熟悉、选用配置设备时选型不当、对设备运行时的常规维护要求不清楚且执行不严格等。维护水平既与运行维护人员的技术水平、经验和培训工作有关,又与系统本身是否易维护、系统管理智能化程度及系统和设备管理修复难易程度有直接关系。
⑧ 在当前已建和正在设计建造的数据中心供电系统中,普遍存在着资源浪费和生命周期成本问题。从UPS供电系统容量来看,大部分UPS的一次装机容量和实际负载容量差别过大,在最初装机运行时UPS的实际负载容量达不到装机容量的10%。运行几年后的实际负载容量也达不到装机容量的30%。用户在UPS容量上的投资,70%以上被闲置浪费。由于传统的系统设计方法和所选用设备的匹配、安装调试等问题,使供电系统的设计和所选用设备对环境和功能要求变化的适应性很差。
2.现代数据中心UPS供电系统的设计理念
当前数据中心UPS供电系统的现状和存在的问题,是UPS厂家和供电系统设计中必须面对的实际问题,正是这些客观存在的问题促使UPS技术进步和供电系统设计理念的变化,其主要表现在以下4个方面。
① 从单台UPS设备向整个供电系统变化。UPS仅是供电系统中的一个环节,在一个完整的供电系统中除了UPS设备外,还可能有变压器、瞬态电压浪涌抑制器、电源进线开关柜、负载配电柜、柴油发电机组、交流稳压器、隔离或升降压变压器、蓄电池系统、各种开关、断路器、熔丝、转插,上百乃至几百个连接点和相应的传输线。所有这些在系统中都会形成单路径故障点,由于这些部件和环节在可靠性模型中的串联特性,以及它们之间的相互影响,就使得系统可靠性大幅度降低。在不断提高UPS设备的性能和可靠性的同时,还必须加强对整个供电系统可靠性的研究。所研究的问题包括系统中各种设备和环节的相互匹配和可靠性问题、系统可用性和冗余配置问题、可修复和缩短修复时间问题、UPS设备的模块化冗余系统结构问题、各种设备和环节连接技术的研究和规范化问题、供电系统的布局(集中式、区域式、分散式)问题、系统的可维护性和集中管理问题等。
② 对系统可靠性的研究向可用性研究变化。数据中心对供电系统的连续性提出了非常高的要求,UPS系统经过多年发展,其性能指标已完全满足数据中心中网络设备对电源的要求,真正能为数据中心带来价值的是其可用性。可用性定义为系统在使用过程中,可以正常使用的时间与总时间之比,可用平均无故障工作时间(MTBF)和平均修复时间(MTTR)表示,即
在概念上,可用性包含了系统中设备的可靠性、可管理性和可维护性。可用性高意味着数据中心有更长的正常使用时间,把发生故障后的不可用时间缩短到最低限度。对可用性的研究促进了UPS设备和供电技术的全面发展,包括设备和系统的冗余可容错技术、设备的模块化可在线热插拔维护和扩容技术、系统的集成一体化技术、智能管理和与IT系统无缝集成地通信管理技术等。
③ 从对单纯的供电系统研究转向整个基础物理设施(NCPI)研究。保证数据中心中网络IT设备正常运行的条件除了配置UPS供电设备外,还必须有与之配套的完整的供电系统、空调及通风系统、机架及IT设备线缆的支撑系统、消防及门禁系统等,这统称为网络关键基础物理设施。这些设施都会在一定程度上影响数据中心的可用性,所以研究工作自然地就由单纯的电力供应扩展到空气调节(包括IT机架微环境)、IT设备机械支撑、系统的集中管理等。NCPI概念的提出标示着供电系统设计理念和策略发生了变化,从关注产品和系统本身到关注实际应用,从供电设备一点向数据中心电力支撑系统的思维模式的转变。换句话说,不再孤立地看待性能单一的供电系统,而是把它放在一个大系统中去,对系统进行全面的研究、设计、构建、管理和评估。从UPS设备到一体化供电系统,再到NCPI,是供电系统设计思维模式的重大变化。
④ 提高UPS供电系统的适应性。当经济环境的变化周期小于设备的生命周期时,就会对设备的适应性提出要求。由于技术发展和经济环境的不确定性和不可预测性,要求一台设备能够自动而有准备地适应新的需求是根本不可能的。一般来说,物理设施不可能像软件系统那样容易地进行逻辑上(程序上)的升级。例如,一台10kVA的UPS要想“升级”为20kVA的UPS是根本不可能的,除非最初标称值为10kVA的UPS的实际容量是20kVA,而那恰恰不是所谓的可适应性,而是“一步到位”的模式。“适应性”向“一步到位”的系统设计模式提出了挑战。系统要适应的变化包括经济形势的变化、IT设备技术革新和功率密度的变化、维护人员操作水平的变化、组织管理模式的变化、设备运行场地的变化等。对NCPI来说,要适应这些变化,需要考虑以下的设计思路:模块化、“积木化”设计,开放式设计,集成化设计,高密度、小型化设计。
数据中心UPS供电系统设计理念的变化,导致了UPS集成化设计理念的产生,在这种设计理念下产生的典型产品是APC公司的“英飞集成系统”——ISX。该产品在设计中遵循的原则是:各供电设备制造和供应渠道的统一化,各供电设备和环节(包括负载机架)结构的一体化和连接的规范化,各供电设备和环节(包括负载机架中的PDU)电源状态管理的集中化,各供电设备和环节结构的模块化、冗余配置和连接的热插拔功能。ISX是实施NCPI理念的具体方案,是一个完整的UPS供电系统,它由电力供应、空气调节、IT设备机械支撑和系统管理4个子系统组成。该产品最大的特点是适应性强,把供电系统的可用性、可管理性、可扩展性等功能都提高到了一个新的水平。
针对以UPS为核心的供电系统中的各种设备进行统一的性能设计和设备配置,有利于加强各设备之间的匹配,提高设备利用率,减少各设备和系统中的谐波干扰和相互影响。设备机架结构的标准化和安装连接的规范化,不仅可加快安装速度,还可提高装配质量,缩短连线长度,减轻零乱状况,有利于减小维护难度和降低人为故障的发生。
功能部件的冗余配置,并可热插拔维修,可把系统故障修复时间缩短到最低,大幅度提高系统的可用性。开放式设计和强大的电源集中管理功能,提高了系统的可管理性和可维护性,可在必要时自行对设备进行重新集成,对运行状况信息的管理进行二次开发,以及自主地不依赖供应商地对设备进行维修维护。可根据IT系统规模和业务扩展的阶段性进行定制化配置,可有效地避免一次性过量的投资和供电容量的浪费。模块化设计不仅能提高系统的可用性,使UPS系统的扩容变得容易,而且对体积较大的设备来说,模块化设计还能提高空间布局的灵活性,从而提高了对空间的适应性,为系统未来可能的改造或重新设计留有余地,并提供可行性方案。
3.数据中心的基础设施系统
数据中心的基础设施系统主要分为电源系统、环境控制系统和机房监控管理系统。由于数据中心承载企业、机构的核心业务,重要性较高,所以数据中心一般根据TIA942标准的Tier4和Tier3标准建设,可靠性要求在99.999%以上,以保证在大部分异常故障和正常维护的情况下,数据中心能够正常工作,核心业务不受影响。
通常选用多路市电互为备份,并且设有专用柴油发电机系统作为备用电源系统,市电电源间、市电电源和柴油发电机间通过自动转换开关(AutomaticTransferSwitch,ATS)进行转换,为数据中心内UPS、机房空调、照明等设备供电。
由于数据中心业务的重要性,通常采用双母线或冗余并机的供电方案,以满足中型数据中心服务器等IT设备高可靠性的用电要求。双母线供电系统有两套独立的UPS供电系统(包含UPS配电系统),在任一套供电母线(供电系统)需要维护或发生故障等无法正常供电的情况下,另一套供电母线仍能承担所有负载,确保数据中心业务不受影响。
在UPS输出到服务器等IT设备输入间,选用服务器电源管理器(SPM)进行电源分配和供电管理,实现对每个机柜的用电监控管理,提高供电系统的可靠性和易管理性。对于双路电源的服务器等IT设备,可以通过SPM直接从双母线供电系统的两套母线引入电源,即可保证其用电的高可靠性。对于单路电源的服务器等IT设备,通常选用STS为其选择一套供电母线供电。在供电母线无法正常供电时,STS将自动快速转换到另一套供电正常的母线供电,确保服务器等IT设备的可靠用电。
选用空调对数据中心的环境温度进行调节,确保服务器等IT设备的运行环境。对于发热量大的服务器等IT设备,通常选用高通孔率(一般大于70%)网孔门的机柜,提高机柜进出风量;将机柜面对面、背对背布置,在机房内形成冷热隔离的风道,提高制冷效率;空调采用下送风方式,确保机房送风均匀,提高制冷效率。
在某些功率密度特别高的场合,往往容易产生局部热点,形成故障隐患。为消除局部热点,需要采用相应的高热密度解决方案。例如,开放式方案是在局部热点发生处加装制冷终端XD,加强局部制冷能力,以消除局部热点;封闭式方案是将高功率密度设备放置在封闭机柜内,通过机柜内的制冷循环,高效率制冷散热。
数据中心需要对电源、空调等设备的运行状态进行管理,同时还需要对环境(如温度、湿度、漏水、烟感等参数)进行监控,确保数据中心工作在一个正常的范围之内,并对数据中心设备运行参数和环境量实时监控和管理,同时进行远程监控和管理,实现无人值守。
数据中心能耗密度的提高,是促使重新考虑IT设备和配电系统电压选择的一个重要原因。在北美,一般情况下120V电压即可满足每个机柜1~2kW使用;随着刀片服务器的出现,由此而来的需求变为208V或230V,并且需要使用五倍于普通服务器甚至更高的电能,功率标准基线也变为每个机柜5kW,10~20kW已经十分普遍,甚至30kW或更高。
可以通过提高电压以三相供电提高机柜的能源供应,将三相电源引入机柜,能源供应将提高300%,而导体芯数与其成本只增长了66%。而且可以支持208V单向与208V三相供电,同样可以为早期或特别的IT设备提供120V的供电。事实上,使用三相供电后,某些机柜级的PDU可以同时提供208V或120V的电压。采用三相供电后除了使用硬线缆外,还可以使用三相连接变换器,如 NEMA“Twist-Lock”L21-20或 L21-30,或者更大的IEC30940-60连接器,还可以使用RussellStove来获得更高的能源供应。这样可以在设备变更时调整电源插座,而不需重新布线。虽然这种方式在初期时成本较高,但从长远来看,它提供了一种简单、低成本的解决方案,以应对设备升级时的移动、添加和改变。在选择机柜级PDU时,应考虑使用支持远程监控的设备,这样可以通过监控防止超载并进行能源管理。
根据数据中心规模和所需电力总和,能源供应可以采用480V或208V/120V。如果数据中心规模足够大,则480V是UPS和所有主要配电设备在数据中心层区最常用和优先的选择。一旦480V供电在层区或行间PDU上部署,它需要通过变压器变换为208V/120V,以供计算机设备使用。变压器的类型将给整个数据中心能源利用率造成很大的影响。
在一个400V/230V的配电系统中,由于不需要变压器,只有靠断路器来保护分支电路。欧洲的数据中心通常会单独在PDU上添加一个变压器,以提供额外隔离环境并减少可能来自上级UPS所产生的不稳定电流的影响,尤其是当UPS无变压功能时。
北美的208V/120V配电系统同样不需要使用变压器,只有靠断路器来保护分支电路。但在设计中通常会在PDU上添加一个变压器,具体原因是隔离环境并减少可能来自上级UPS所产生的不稳定电流的影响。机柜级配电系统的电压越高,将电力传送至负载处所需的电流就越小。电流越小,则整个系统中使用的电器开关、UPS配电盘和铜缆等的承载要求与费用也随之降低,这在很大程度上降低了数据中心的成本。表1-3所示为在相同电流强度下,电压对传输电能总量的影响。
表1-3 电压对传输电能总量的影响
大多数现代信息技术装备的设计都考虑到全球兼容性。这些设备不仅可以运行于北美的120V/208V、日本的100V/200V配电系统下,也可以运行于世界其他地方采用的230V配电系统下。如果世界其他地方采用的配电系统被北美数据中心采用,那么将能够提高效率,降低成本,减少地面负重,节约占地空间,并且可简化电力线缆架设。
高密度数据中心服务器的每个机架需要耗费10~40kW功率,对标准北美配电系统造成很大的压力。提高机架设备功率密度会导致每个机架对复接支路需求的增加,并且需要额外的断路器和线缆。所需的更大PDU将占用数据中心高达30%的占地空间,并造成数据中心30%的地面负重。每个IT机架安装的PDU越多,成本越高。世界许多国家采用相电压230V的交流电,将其升至240V将能使数据中心供电效率提高。
这些对比数据将成为配电系统升级时的参考,并能节省开支,同时缩短建设周期,因为当前连接至PDU的线缆和管线可以重新利用,不需要更换。例如,将现有的接驳线缆电压由208V升至480V,将可以在现有线缆的基础上,传输两倍于先前的电力(只需要确保配电盘和开关符合相关电压值指标)。
在北美,一般使用208V/120V终端用户设备,通过标准插头和插座接入。还有一种常见的接电方法是将电路添加到208V/120V配电盘上。480V电压在使用中则可能存在更大的潜在风险,可能产生电弧,所以并不适合插入式设备使用。
在欧洲,只有单相230V的配电和接入设备,采用IEC标准C13和C19类型插座和插头,电流最大为16A。可是,三相400V电压可以通过添加更大的IEC309型插座(最大电流为60A)后正常使用。同样在欧洲,400V电压可以连接至配电盘(需要适当的安全装置),这样便可在数据中心配电系统上正常使用。
欧洲采用400V供电系统的优点是不需要电压变换,所以不用添加额外的变压器,这样将使得数据中心供电系统整体更加精简和高效。在北美,许多硬件厂家提供支持400V/230V的产品,作为高性能产品,用于替换传统208V/120V的配电系统。在层级和行级的PDU中使用“自动变压器”,使得这些 PDU可以与480V的 UPS和480V的配电系统一起使用, PDU则输出230V用于IT机柜,这提供了更高的效率和更小的占用空间。
400V供电系统的另一个优点是UPS可以400V电压供电,PDU不需要额外的变压器。数据中心的主输入电源和所有用电设备的开关、发电机等使用400V电压,在理论上避免了由变压器造成的损耗,并减小了铜缆上的能源消耗,同时允许IT设备电源以230V正常运行,这样会更加高效。
4.数据中心的高效电源结构
在数据中心中,阻碍电力传输链效率提高的因素有两个:链路中的电源变换次数与配电损耗。总效率低下是数据中心所有电源变换及诸如处理器、存储器和磁盘驱动器等元器件的效率造成的。例如,服务器的供电电源有90%的效率,另外10%的能量没有得到有效利用,而这些能量损耗以热的形式散发出去。
为了提高供电系统效率,IT业界需要更高效的电源和改善电源系统管理方式。IT产业还必须考虑更高效的配电系统。当然,冷却系统的效率也必须得到提高。除了冷却系统外,其他环节的效率完全依赖于对供电电源和服务器进行的优化设计。
数据中心电源的典型功率传输链路是交流电输入到UPS,一般相间电压为400V,相电压为230V;UPS输出到PDU的电压和输入相同,而PDU包括电源断路器及将输入电压降压到208V的变压器;服务器的供电单元(PSU)将208V输入变换为12V直流。
整条链路显示出两个阻碍效率提高的主要因素。首先,这条链路出现了很多电源变换器。当进行AC和DC之间的变换时就会出现损耗,这种损耗转变为热量,而热量必须被散出。实际上,典型的双向UPS设计首先将AC变换为DC为蓄电池充电,然后再变换为AC为PDU供电。PDU变压器增加了损耗,PSU也一样,因为PSU也需要进行AC/DC变换。另一个阻碍因素是配电损耗。PDU输出相对低的208V电压,相对低的电压意味着系统具有相对大的电流,因为配电损耗和电流的平方成正比,所以为了提高效率,应将电压尽量提高。
采用380V直流配电方式,可减小配电损耗及电源变换带来的损耗。在这种系统中, UPS可以直接供应380V的直流电压到采用DC/DC服务器的PSU。PDU仍然包含电源断路器,但是不再有电源变换器件。如果同时减少UPS系统的变换及第一级的电源变换,那么将获得9%左右的效率提高(UPS输出级的DC/AC变换器及位于PSU的交流整流级)。它所运行的测试显示节约了9%的能量,是最好的交流系统。
在服务器电源结构的设计中,显然需要考虑使用高电压作为输入的可实现性。同时,在设计中要设计智能电源系统,使其可以与运行于服务器的电源管理软件进行通信。这种系统不仅可使电源效率更高,而且使其具有可控性,会让数字电子设备的效率更高。