- 新一代绿色数据中心的规划与设计
- 钟景华 朱利伟 曹播 丁麒刚等
- 389字
- 2020-08-27 02:58:19
3.6 数据中心可靠性/可用性模型
数据中心在一个物理空间内实现对数据信息的集中处理、存储、传输、交换、管理,一般含有计算机设备、服务器设备、网络设备、通信设备、存储设备等关键设备。
数据中心基础设施(Data Center Infrastructure)是为确保数据中心的关键设备和装置能安全、稳定和可靠运行而设计、配置的基础工程,也称机房工程(Facility Site Engineering)。数据中心基础设施的设计、建设和管理不仅要为数据中心中的系统设备运营管理和数据信息安全提供保障环境,还要为工作人员创造健康、适宜的工作环境。
目前,国内、外与数据中心有关的工程建设标准主要有中国建设部发布的国家标准《电子信息系统机房设计规范》(GB 50174—2008)、美国通信工业协会(TIA)发布的《Tel-ecommunications Infrastructure Standard for Data Centers,数据中心的通信基础设施标准》(AN-SI/TIA942-2005)、中国信息产业部发布的《电信专用房屋设计规范》(YD/T5003—2005)等,它们是数据中心建设定位、功能指标、设计技术、施工工艺、验收标准等的具体技术要求与体现。
3.6.1 中国国家标准GB 50174—2008对电子信息机房可靠性/可用性的要求
中国国家标准,即《电子信息系统机房设计规范》(GB 50174—2008)结合中国国情实际,社会经济发展情况,根据数据中心的使用性质、管理要求及在社会经济中的重要性对机房分级,主要从机房选址、建筑结构、机房环境、供电电源、机房布线、监控管理等方面,将数据中心分为A、B、C三个级别。
1. 最高级(A级)
电子信息机房(数据中心基础设施)关键设备按容错要求配置,有多路回路承担信息系统。由于系统中消除了单点故障点,所以意外事故、操作失误、维护工作等都不会导致数据中心信息系统运行中断。该型数据中心的供电系统由两套冗余配置的系统组成,由于系统具有完整的两套互为备份的供电系统,所以可用度都大大提高,主要应用于核心数据中心。
2. 中间级(B级)
电子信息机房(数据中心基础设施)关键设备按冗余要求配置,在设备冗余能力范围内,不会因为设备故障和维护需要,而导致数据中心信息系统运行中断。但是,由于系统存在单点故障点,意外事故、操作失误等会导致数据中心信息系统运行中断。该型数据中心供电系统冗余配置,由于系统关键设备具有冗余配置,所以可用度都较高,广泛应用于中、小型数据中心。
3. 基本级(C级)
电子信息机房(数据中心基础设施)按基本需求配置,在设备正常运行情况下,保证数据中心信息系统运行不中断。但是,由于系统存在单点故障点,所以操作失误、设备故障和维护需要等会导致数据中心信息系统运行中断。该型数据中心供电系统最简单,由于系统无冗余,所以可用度都最低,应用于一些简单的小型数据中心。
表3-2列出了国标《电子信息系统机房设计规范》(GB 50174—2008)中对于数据中心各部分对应不同可靠性等级的配置要求,包括机房选址、建筑结构、机房环境、供电电源、机房空调、机房布线等。
表3-2 GB 50174—2008对数据中心可靠性/可用性的要求
(1)数据中心的建筑结构。建筑结构主要包括数据房间结构、供排水系统、照明系统等,保证了数据中心基本稳定,安全进出环节。
(2)数据中心的供电系统。数据中心的供电系统主要包括保障主设备用电的UPS供电系统和配电管理系统,UPS、空调等其他设备用电的市电电源和柴油发电机的后备电源,以及相应的配电系统,保证了数据中心用电设备的用电可靠,确保数据正常可靠的运行。
(3)数据中心的环境控制系统。数据中心的环境控制系统主要包括保障主设备的机柜系统、机房空调系统,保证了数据中心设备运行的安全稳定的环境系统。
(4)数据中心的综合布线系统。数据中心的综合布线系统主要包括连接和管理主设备的综合布线系统、KVM等管理系统,保证了数据中心网络的可靠稳定运行。
3.6.2 美国数据中心标准ANSI/TIA942—2005对可靠性/可用性的要求
美国通信工业协会(TIA)发布的ANSI/TIA942—2005标准,即《Telecommunications In-frastructure Standard for Data Centers(数据中心的通信基础设施标准)》描述了对各类数据中心或计算机房的建筑结构、供电系统、环境控制系统和网络布线系统等基础设施的不同可靠性要求和配置,共分为4级。
在《数据中心的通信基础设施标准》中,根据数据中心基础设施(如供电、空气调节、综合布线及其他系统)的可用性(Availability)、稳定性(Stability)和安全性(Security)分为4个等级。
1. 等级I——基本级
等级I型数据中心配有不间断供电系统和制冷系统。这些系统可以承担基本的关键的负荷,但无冗余配置。UPS、空调等设备根据负荷容量配置。因此,系统中有多个单点故障点。无论是有计划的维护、修理和扩容,还是运行故障和意外事故都会导致系统运行中断。等级I型数据中心基础设施系统满足了数据中心的最基本要求。
2. 等级II——部件冗余级
等级II型数据中心配有不间断供电系统和制冷系统的主要设备、部件采用冗余配置,系统的容量配置为“N+1”,“N”为关键负荷量。例如,UPS、柴油发电机采用“N+1”冗余并机配置,空调采用“N主1备”配置。因此,大部分有计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。
等级II型数据中心通过冗余配置,提高了基础设施系统的可靠性。
3. 等级III——在线维护级
等级III型数据中心配有不间断供电系统和制冷系统采用多条分配回路,但只有一条回路在线承担负荷。当在线的回路需要维护或者出现故障时,启动另一条回路承担负荷,例如,大型数据中心的冷冻水空调系统,配置两套独立的管路。因此,有计划的维护、修理和扩容,以及大部分运行故障和意外故障都不会引发系统运行中断。
等级III的数据中心可实现在线维护,常被设计成可升级等级IV的数据中心。
4. 等级IV——故障容错级
等级IV型数据中心配有不间断供电系统和制冷系统采用多条分配回路,并同时在线,共同承担负荷。当在线的回路需要维护或者出现故障时,另一条回路可以承担所有负荷,如“S+S”的双电源系统,两套独立的“N+1”冗余UPS供电系统。等级IV型数据中心需要计算机硬件设备有故障容错的双电源输入。该型数据中心系统中没有单点故障点,因而任何计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。
等级IV的数据中心可防止单点故障对系统的影响,实现最高可靠性的应用。
ANSI/TIA942—2005对数据中心可靠性/可用性的要求如表3-3所示。
表3-3 ANSI/TIA942—2005对数据中心可靠性/可用性的要求
续表
3.6.3 数据中心基础设施可靠性模型
对于数据中心基础设施的各子系统的可靠性,建筑结构、供电、空气调节、综合布线等系统决定了数据中心的可靠性运行。下面按照国标《电子信息系统机房设计规范》(GB 50174—2008)的分级要求,对各个子系统的各个级别相应配置分别进行可靠性模型的分析。
1. 建筑结构子系统的可靠性
建筑结构子系统可靠性因为涉及建筑及结构的可靠性/可用性,涉及用户使用状况、地质条件与灾害等,属于非常复杂的专题,所以本书不讨论该子系统。
在考虑建筑结构子系统的可靠性/可用性过程中,建议数据中心的设计者、用户按照相关标准、规范,合理地选择数据中心位置,如避免强干扰、地震、爆炸、环境污染等危险,方便的运输条件,进行科学机房分区布局等,提高数据中心建筑结构系统的可靠性/可用性。
2. 供电子系统的可靠性
供电系统指的是从市电变压器、发电机组之后,包括ATS自动切换开关、配电系统、UPS、供电电缆等环节,如图3-13所示。
图3-13 数据中心常见供电系统图(示意图)
供电系统应由高低压供配电管理系统、UPS供电系统及后备电源系统组成。它们相互之间的配置是否合理决定了整个供电系统的可靠性。科学合理的供电系统,可确保数据中心长期高效地运行。
主要供电子系统和部件的故障率和修复率数据如表3-4所示。
表3-4 主要供电子系统和部件的故障率和修复率数据
根据表3-4中数据,由公式可计算出主要供电子系统和部件的可用度,如表3-5所示。
表3-5 主要供电子系统和部件的可用度
根据表3-5的数据及相关供电子系统可靠性模型,可计算供电子系统相关子系统可用度。
1)配电子系统可用度
配电系统可靠性模型如图3-14所示。
图3-14 配电系统可靠性模型
这是个串联模型,并从表3-5查得:
A1=0.999999834738
A2=0.999999121013
因而配电系统的可用度为:
A=A1×A2×A1×A2×A1=0.999997746241
2)电网可用度
220V/380V电网(数据中心市电电源)系统可靠性模型如图3-15所示。
图3-15220V/380V电网数据中心市电电源系统可靠性模型
这是个串联模型,根据国家电力公司电力可靠性管理中心数据,2007年10kV电网的可用度为0.998817,及由表3-5查得:
A1=0.998817
A2=0.999999834738
A3=0.999999121013
A4=0.999800004444
因而220V/380V电网电源系统的可用度为:
A=A1×A2×A3×A2×A4×A2×A3×A2=0.998814583841
数据中心供电系统由市电电源、备用电源(备用市电、备用发电机)、低压配电系统、UPS系统(包含电池)、机柜专用配电等子系统构成。根据上面的分析,各级数据中心供电系统可用度如下。
3)C级数据中心供电系统可用度
国标C级数据中心供电系统(基本配置为N)可用度框图如图3-16所示,包括单路市电电源、低压配电系统、无冗余UPS系统、机柜专用配电系统组成了最简单的数据中心供电系统。
图3-16 国标C级数据中心供电系统可用度框图
供电系统可用度为:
A=[1-(1-A1×A2)×(1-A3)]×A4×A5
其中,电网可用度A1=0.998814583841。
配电系统可用度A2=A5=0.999997746241。
根据表3-5,UPS主机可用度:A3=0.999948839291。
UPS电池可用度:A4=0.999983030881。
计算得可用度:A=0.999941506652。
4)B级数据中心供电系统可用度
国标B级数据中心供电系统(冗余配置级为N+1)可用度框图如图3-17所示,包含市电电源、备用电源(柴油发电机)、低压配电系统、UPS冗余并机系统、专用机柜分配电系统。
图3-17 国标B级数据中心供电系统可用度框图
供电系统可用度为:
A=A1.2×A6.1×A7
其中,UPS输入电源的可用度为:
A1.2=[1-(1-A1.1)×(1-A5)]
交流输入电源的可用度为:
A1.1=[1-(1-A1)×(1-A2)]×A3×A4
UPS“1+1”冗余并机系统的可用度为:
A6.1=[1-(1-A6)2]
其中,电网可用度:A1=0.998814583841。
配电系统可用度:A4=A7=0.999997746241。
根据表3-5,柴油发电机可用度:A2=0.999932020398。
ATS可用度:A3=0.999943780437。
UPS主机可用度:A5=0.999948839291。
UPS电池可用度:A6=0.999983030881。
计算得可用度:
A1.1=0.999941446225
A1.2=0.999999999006
A6.1=0.999999997383
A=0.999997742630
5)A级数据中心供电系统可用度
国标A级数据中心供电系统(容错配置为2(N+1))可用度框图如图3-18所示,包含两路市电电源、备用电源、两套低压配电系统、冗余UPS系统、两路专用机柜分配电系统,组成了两套冗余配置的数据中心供电系统。
图3-18 国标A级数据中心供电系统可用度框图
双电源关键负载的供电系统可用度为:
A=A1.2×[1-(1-A6.2)2]
单电源关键负载的供电系统可用度为:
A′=A1.2×[1-(1-A6.2)2]×A8
其中,UPS输入电源的可用度为:
A1.2=[1-(1-A1.1)×(1-A5)]
交流输入电源的可用度为:
A1.1=[1-(1-A1)×(1-A2)]×A3×A4
UPS“1+1”冗余并机系统的可用度为:
A6.1=[1-(1-A6)2]
一条母线供电系统的可用度为:
A6.2=A6.1×A7
其中,电网可用度A1=0.998814583841。
配电系统可用度A4=A7=0.999997746241。
根据表3-6,柴油发电机可用度:A2=0.999932020398。
表3-6 空气调节子系统和部件的可用度
ATS可用度:A3=0.999943780437。
UPS主机可用度:A5=0.999948839291。
UPS电池可用度:A6=0.999983030881。
计算得可用度:
A1.1=0.999941446225
A1.2=0.999999999006
A6.1=0.999999997383
A6.2=0.999997743624
双电源关键负载的供电可用度为:
A=0.999999999001
根据表3-5,STS的可用度:A8=0.999993605157。
单电源关键负载的供电可用度为:
A′=0.999993604158
3. 空气调节子系统的可靠性模型
数据中心空气调节系统由市电电源、备用电源(备用市电、备用发电机)、低压配电系统、机房专用空调系统、机柜系统构成。根据国标《电子信息系统机房设计规范》(GB 50174—2008),不同的冗余配置对应不同的可靠度要求的数据中心。
根据国标《电子信息系统机房设计规范》(GB 50174—2008),冷冻机组、冷冻和冷却水泵的配置与机房专用空调相同:C级为N、B级为N+1、A级为N+X(X=1~N)。因此,风冷型、冷冻水型、水冷型、乙二醇型等机房空调的可靠性模型可统一为一种类型。双冷源型机房空调采用双冷源,其可靠性高于前述几种类型机房空调,但应用较前述几种类型机房空调的少。在空气调节系统可靠性模型分析中,机房专用空调系统可靠性采用风冷型、冷冻水型、水冷型、乙二醇型等机房空调的可靠性模型。
根据目前业界主流机房空调品牌的各类机房空调的应用,机房空调的MTBF大约为15万h,MTTR大约为4h。根据公式,可计算机房空调系统的可用度为A=0.999973334044。
机房空调系统有多种送风方式,如地板下送风、风道上送风、风帽上送风等。地板下送风方式为机房空调将冷风送入地板下的静压箱,从防静电地板送入机柜,冷却后机柜内设备后,经机房送回空调机组;上送风方式为机房空调将冷风送入机房内机柜,冷却后机柜内设备后,经机房送回空调机组。机柜及防静电地板为机械结构设备,失效率低,可靠性高且易更换,可用度非常高。根据应用经验可认为机柜及防静电地板合成的机柜系统的可用度为1。
根据上一节分析结果,可得空气调节子系统和部件的可用度的数据如表3-6所示。
根据表3-6中数据及相关空气调节子系统可靠性模型,可计算各个等级数据中心空气调节子系统可用度。
1)C级数据中心空气调节系统可用度
国标C级数据中心空气调节系统(基本配置为N)可用度框图如图3-19所示。单路市电电源、低压配电系统、无备份机房专用空调系统、机柜系统组成了最简单的数据中心空气调节系统。
图3-19 国标C级数据中心空气调节系统可用度框图
空气调节系统可用度为:
A=A1×A2×A3×A4
根据表3-6,电网可用度:A1=0.998814583841。
配电系统可用度:A2=0.999997746241。
机房空调系统可用度:A3=0.999973334044。
机柜系统可用度:A4=1。
计算得可用度:
A=0.998785698469
2)B级数据中心空气调节系统可用度
国标B级数据中心空气调节系统(冗余配置级为N+1)可用度框图如图3-20所示。
图3-20 国标B级数据中心空气调节系统可用度框图
两路市电电源、备用电源、低压配电系统、有冗余备份机房专用系统、机柜系统组成了冗余配置的数据中心空气调节系统。
空气调节系统可用度为:
A=A1.1×A5.1×A6
其中,交流输入电源的可用度为:
A1.1=[1-(1-A1)×(1-A2)]×A3×A4
“1+1”冗余备份机房空调系统的可用度为:
A5.1=[1-(1-A5)2]
根据表3-6,电网可用度:A1=0.998814583841。
柴油发电机系统可用度:A2=0.999932020398。
ATS系统可用度:A3=0.999943780437。
配电系统可用度:A4= 0.999997746241。
机房空调系统可用度:A5=0.999973334044。
机柜系统可用度:A6=1。
计算得可用度:
A1.1=0.999941446225
A5.1=0.999999999289
A= 0.999941445514
3)A级数据中心空气调节系统可用度
国标A级数据中心空气调节系统(容错配置为N+N)可用度框图如图3-21所示。两路市电电源、备用电源、两套低压配电系统、N+N冗余机房专用空调系统、机柜系统组成了两套冗余配置的数据中心空气调节系统。
图3-21 国标A级数据中心空气调节系统可用度框图
关键负载的空气调节系统可用度为:
A=[1-(1-A1.1×A5)2]×A6
每套机房空调系统交流输入电源的可用度为:
A1.1=[1-(1-A1)×(1-A2)]×A3×A4
根据表3-6,电网可用度:A1=0.998814583841。
柴油发电机系统可用度:A2=0.999932020398。
ATS系统可用度:A3=0.999943780437。
配电系统可用度:A4=0.999997746241。
机房空调系统可用度:A5=0.999973334044。
机柜系统可用度:A6=1。
计算得可用度:
A1.1=0.999941446225
A=0.999999992738
4. 网络布线子系统的可靠性
数据中心的网络布线子系统主要包括连接和管理IT设备的网络接入、综合布线系统,KVM等管理系统,保证了数据中心网络的可靠稳定运行。
因为网络布线子系统可靠性模型复杂,业界研究较少,所以多采用工程方法确保网络布线子系统的可靠工作。
数据中心的设计者、用户可以根据中国国标《电子信息系统机房设计规范》(GB 50174—2008)、参照美国标准《Telecom Infrastructure Standard of Data Center》(TIA942-2005)及相关标准与厂家推荐方案,采用不同冗余配置实现数据中心网络布线子系统的不同等级的可靠度要求,有关内容详见本书相关章节。