2.3 云数据中心关键技术

云数据中心关键技术包括存储技术、网络技术、容灾技术、电源管理技术、环境控制技术。

2.3.1 存储技术

云数据中心面临的数据存储技术挑战主要有数据的稳定性、数据的高可用性、数据的访问安全性、数据的持久可用性[14]等。

1. 数据的稳定性

云数据中心提供的数据存储服务要保证每个租户访问的稳定性,而不会因为个别租户对存储的突发性大量I/O访问,影响其他租户的正常业务访问。在存储区域网络(Storage Area Network,SAN)架构设计中,考虑到主机与存储之间的过载比,为了避免造成拥塞或降低性能,需要同时采用核心-边缘的SAN架构设计实现灵活扩展,在设备选择上充分考虑SAN的响应时间及设备的处理能力,尽量选择低时延、大吞吐量的技术和设备,以满足牢靠的SAN架构需求。

2. 数据的高可用性

目前,云数据中心使用的数据存储装置主要分为在线存储、近线存储和离线存储三类。租户业务实时性要求高的、安全性要求高的、业务连续性要求高的数据存储装置一般都是在线存储。当前的在线存储主要是我们通常所说的存储阵列,它又分为基于SAN的存储阵列、基于网络存储(Network Attached Storage,NAS)的存储阵列、基于开放系统直连式存储(Direct-Attached Storage,DAS)架构的存储阵列。基于数据块SAN网络化的存储架构和基于文件网络附加存储的底层磁盘技术很通用,因而近两年推出的统一存储可以支持不同的存储协议,为主机系统提供统一的数据存储。越来越多的云数据中心已经或计划采用这种多协议存储。云数据中心的存储利用存储虚拟化技术,可以将底层传统的多种存储进行池化,实现统一管理,从而满足不同租户灵活的存储需求。

3. 数据的访问安全性

租户在访问云数据中心的存储数据时,可以在数据传输阶段和数据存储阶段采用加密技术,从而在一定程度上增加数据的安全性。云数据中心通过身份认证管理租户的登录,并通过服务授权和分权分域等方式控制租户的访问权限,同时运用动态访问控制策略,能够更好地满足云计算环境下多变的租户对资源的安全需求及访问需求。在云数据中心,数据的存取是通过虚拟机实现的,虚拟主机层面的安全直接影响到数据存储的安全,虚拟主机共用宿主主机的物理资源,很多恶意的访问都可以通过共享资源进行侧通道攻击,从而导致数据的非法访问及泄露。比较好的云数据中心需要通过技术手段实现共享资源的隔离,并通过资源监控、行为监控等手段进行攻击识别及阻断攻击,确保租户数据的安全。

4. 数据的持久可用性

数据对任何租户来说都是至关重要的,如何保证存储在云端的数据不丢失是首要任务。存储底层的独立磁盘冗余阵列(Redundant Arrays of Independent Disks,RAID)保护技术仅能提供一部分数据保护功能,防止数据丢失的最好方法是采用多种备份方式进行多份备份。根据不同租户的服务水平协议要求,提供本地的镜像保护、本地的归档备份保护、异地的数据灾备保护等保护策略,以确保数据的持久可用性。云平台通过磁盘镜像、数据备份、数据归档、连续数据保护、异地数据复制等技术,为不同租户提供多种级别的数据保护能力,确保租户数据安全不丢失。

2.3.2 网络技术

1. 100G以太网技术

带宽问题是云数据中心网络面临的核心问题。在云数据中心,诸如视频点播、10G的FCOE、高性能计算等高带宽应用,都需要万兆以太网接口。在数据中心高速成长时期,随着服务器和接入设备上万兆以太网的普及,云数据中心网络的汇聚层设备和核心层设备对100G以太网的需求越来越强烈。2010年,IEEE正式发布40G/100G标准,该标准为100G以太网应用铺平了发展之路。100G网络时代的到来并不仅仅意味着端口、带宽速度的升级,也不仅仅是在数据传输速率上比10G网络快了10倍,更重要的是功能上的极大增强和丰富。作为新一代的云数据中心,其必将在汇聚层或核心层采用100G以太网以满足应用需求。

2. 浪涌缓存技术

浪涌(一般网络条件下称为突发流量)表示瞬间的高速流量。浪涌在互联网企业承载搜索业务的数据中心中表现尤为明显。数据中心在处理一次搜索业务时,一般先由一个服务器发起,然后通过一系列算法向数据中心存有搜索信息的业务服务器发起搜索请求,这些服务器通常有上千台,这上千台服务器几乎在同一时间将搜索结果发回发送请求的服务器。这种流量模型是典型的多端口打一口的网络,在这样的数据中心,会频繁出现浪涌现象[15]。传统数据中心网络采用出端口缓存的机制,所有数据流的突发在出端口处被缓存,缓存的大小即网络最大可能的突发值。

根据应用的特点,云数据中心要求缓存要大,所以一般云数据中心的网络设备必须具备超大缓存(1GB以上),同时不再采用出端口缓存,而采用入端口缓存。入端口缓存结合虚拟输出队列技术,在每个入端口的方向都配置大容量缓存,在出端口配置较小缓存,使用专用流量管理元器件进行内部流量管理。采用Credit来控制每个入端口方向的数据向出端口的突发,每个出端口都向其他端口分配Credit。当出端口在线速下向外转发数据时,如果入端口方向过来的数据速度较快,那么在达到或超过出端口设定的突发门限时,出端口不再为入端口分配Credit,从而使入端口的数据缓存在本地的大容量缓存中;当出端口的数据速度下降到突发门限以下时,继续向入端口分配Credit,以使缓存的数据继续转发。

浪涌缓存技术能够自动调节不同方向的瞬时流量拥塞压力,是当前云数据中心网络的主要应用技术。

3. 网络虚拟化技术

传统的数据中心网络架构受到多层结构、安全区域、安全等级、策略部署、路由控制、VLAN划分、两层环路、冗余设计等诸多因素的影响,网络结构比较复杂,数据中心基础网络的维护管理难度较高。云数据中心需要管理的网络设备更多,因而必须引入虚拟化技术进行设备管理。利用虚拟化技术,用户可以将多台设备进行连接,“横向整合”起来,组成一个“联合设备”,并将这些设备看作单一设备进行管理和使用。用户也可以将一台设备分割成多个虚拟设备,这些虚拟设备之间完全独立,可以分别管理。这将极大简化云数据中心网络的管理。

4. 统一交换技术

云数据中心网络的性能要求超过传统数据中心网络的性能要求,这样的要求使得云数据中心网络平台构建方面的性能考虑区别于传统数据中心网络平台构建方面的性能考虑。云数据中心网络需要具备“统一交换”的无阻塞全线速交换架构。

线速指的是线路数据传送的实际速率能够达到名义值,如千兆端口实际吞吐量能够达到千兆。全线速指的是交换机所有端口能够同时以线速转发,这种能力体现了交换机的性能。无阻塞全线速指的是交换的任意字节报文均能够达到全线速的能力,所有端口都以线速接收帧,并能无时延地处理帧。统一交换技术能实现无阻塞全线速的架构。

传统数据中心网络的交换架构通过Crossbar高性能交换网实现,数据在Crossbar内部的选路是固定的,同一数据流在内部的传送路径通过Hash算法确定,在某些特殊情况下,在不同交换阶层上仍会发生阻塞的现象。随着近年来应用不断丰富,业务规模不断扩大,实际带宽消耗迅猛增长,出现了传统交换架构在云数据中心难以满足性能需求的现状。统一交换架构在系统内部采用动态选路方式,将业务线卡接收到的数据报文进行等长切片处理形成定长信元,每个信元都加载动态选路的标准,当出现路径不可用或网板、线卡故障时,选路信息会动态改变,由硬件系统自动切换到正常的路径上。统一交换架构真正实现了无阻塞全线速的网络。

5. 绿色节能技术

云数据中心的网络功耗是数据中心功耗的主要组成部分之一,只有降低网络功耗才能提升云数据中心的运行效率。云数据中心网络必须采用绿色节能技术,网络设备消耗的功率是该设备中所有元器件消耗功率的总和,选择低功耗的元器件是实现节能降耗的根本措施,其带来的效果不仅仅是整机功耗简单累加后的降低,还会减小热设计的代价。网络设备的电源系统要采用完备的灵活电源智能管理,以自动调节功率分配。云数据中心要采用具有绿色节能认证的网络设备。

在2013年中国电信、中国移动等企业的新一轮数据中心网络设备集采测试中,网络设备功耗作为一项重要的测试指标,功耗过高的网络设备都需要出局。未来的云数据中心必将全部采用低功耗的网络设备,只有绿色节能的网络才是高效的网络。

2.3.3 容灾技术

1. Cache技术

Cache是一种缓存技术,它以数据库(Database,DB)的形式将数据存放在存储设备中,对常用的数据进行备份,当用户再次访问同一数据时,就从缓存中访问,大大缩短了访问时间。在容灾系统中,将数据信息缓存在容灾系统中,可以实现对数据的备份和快速恢复。其中,数据容灾的Cache技术还包括两种算法:第一种是本地容灾磁盘的饱和算法,该种算法通过对单位时间内数据恢复的次数进行统计与计算,替换恢复次数较少的数据块;第二种是对异地数据信息的恢复算法,该种算法通过单位时间内数据块恢复的次数确定是否对异地数据块进行替换。

2. 映射技术

映射技术在一般情况下对设备和程序管理之间形成的映射关系进行处理,是完成信息储存的主要技术。映射关系导致了数据的自动迁移,而自动迁移是由一种指令的触发形成的自动化操作,如数据的自动保存、复制、粘贴和删除。当磁盘遭到损坏后,将映射技术应用到数据容灾中,容灾系统就会自动接收该项指令,并对相关数据进行映射操作。在使用映射技术时,还可对磁盘的透明进行替换。但是用户在使用映射技术之前,必须先建立云存储环境,然后在云存储环境中将映射的数据复制和备份到容灾系统中。此外,为了避免磁盘损坏而导致数据永久不可还原,在数据备份的过程中可以同时创建多个副本。

3. 互联技术

由于数据容灾系统涉及主节点与冗余备份节点,因此可以将这两种节点连接起来的互联技术在容灾中十分重要。目前,主节点与冗余备份节点主要基于存储区域网络(Storage Area Network,SAN)的远程复制,通过光纤通道进行连接,即通过光纤通道(Fibre Channel,FC),把2个SAN连接起来,进行远程复制。当灾难发生时,由备份数据中心替代主数据中心保证系统工作的连续性。这种远程容灾备份方式存在一些缺陷:实现成本高,设备的互操作性差,跨越的地理距离短(10km)等。

4. CDP技术

持续数据保护(Continuous Data Protection,CDP)是一种实时的数据备份技术,它自动将应用数据的所有变化实时记录下来。该技术的主要优点是将每一个应用数据的变化加上了时间索引。这样当出现数据丢失、数据损坏或安全问题时,就可以恢复到最近的完好数据[16]。CDP技术不断进步,在数据损耗的情况下,其允许快速的数据恢复,并把数据还原到生命周期任一指定点。

5. 主备机容灾技术

为正在运行业务的每台主机(业务机)都建立一套备份机(容灾备份系统,主机与备份机建立一对一的关系),有条件的云数据中心可以在异地建立异地容灾系统,一旦本地主机发生故障,数据错误或丢失,即可通过异地备份系统进行恢复。两个云数据中心不分主次同时开展业务,但两个云数据中心的业务不会重叠。每个云数据中心都作为另一方云数据中心的业务备份,需要把对方的业务通过存储、复制等手段备份到本中心。当其中一个云数据中心的部分或全部业务出现故障时,在另一个云数据中心使这些业务恢复运行。

2.3.4 电源管理技术

从功耗管理的角度来看,云计算的核心在于数据中心的电源管理。作为多计算机切换器(Keyboard、Video、Mouse,KVM)系统领先厂商,美国力登公司在数据中心智能化管理方面下功夫,从而降低功耗,其软硬件开发根据用户的关注重点来改进,其KVM产品在全球很多数据中心都得到了广泛应用。因此,美国力登公司不仅熟悉数据中心管理,也了解数据中心用户的需求。智能电源分配单元(Power Distribution Unit,PDU)通过增加控制芯片进行电源智能管理,对用电设备进行即时监控,包括电流、电压、温湿度、数值读取、分析,进而可以对用电设备的关断电、重启进行远程操作,既可提升机房的安全性,又可实现用电的科学管理,从而实现综合节能[17]。大多数用户的核心机房装机密集,各类电源设备分布太散,很难集中管理,只有采用电源管理智能化,实现24小时无人可视化管理,才能真正实现分散集中管理。

2.3.5 环境控制技术

1. 空间构建布局与管理

在云数据中心的空间建设上,应当充分合理规划,将自然条件与实际硬件设施结合起来,包括购置服务器的类型;应当考察实际功耗情况,并根据需要对空间进行合理构建布局,包括空间通风、置放平台位置、自然调节等因素。例如,采用顶级机架堆叠式交换机柜节省空间;有足够大空间的,尽量保持空气流通,防止出现热点,并避免使用过多的电力;滑动抽屉和货柜架可以帮助空气流通;底盘和服务器机柜可以防止热量集中在地面等。另外,若与外单位合用一个办公楼,则可以考虑共享同一云数据中心,或者安置同一服务器,在不涉及保密、安全的情况下,共享相关资源。

2. 保持冷却系统高效节能

服务器空间系统要想高效、环保,必须保持云数据中心高效的冷却系统。除可以使用地砖、通风口和安全板分离组件防止热量积聚外,也可以使用空面板使电缆绝缘避免热量损失。通过使用风扇和传感器,冷通道之间可以有不同的服务器机架,这些机架可以安装在机柜的外部或内部,或者固定在墙壁和服务器上面,以保持一致的温度。另外,还应该正确安装监测传感器,实时监控不同部位数据中心的温度水平和湿度水平,并根据自己的需要随时进行调整。环保的云数据中心最佳实践包括密切监控环境条件,知道何时进行小的调整及系统整体的调整。这取决于如何设置机房的温度水平,如果机房一直很干燥或太潮湿,就需要做出调整;如果不这样做,那么会导致服务器的永久性损坏,以及网络故障。也可以通过设置服务器的低功耗模式,在不使用时节省数据中心的资源。

3. 数据中心合理优化整合

可以通过虚拟化将一些个别服务器整合到一台服务器,让不同的虚拟服务器使用单一的电源,以在一个网络内进行各种工作。一台服务器电源的实际运行与多台虚拟机同时运行没有太大的不同,这意味着可以节省更多的云数据中心空间。另外,还可以考虑将云计算作为一种减少云数据中心物理需求的方式。数据备份、应用程序和虚拟服务器都可以通过外包远程运行,并且仍然能够访问和更改数据,而无须维持全面的数据中心。虽然有些企业可能更倾向于将数据保存在企业内部,但如果企业的数据存储需要已经超出了企业的电源承受能力,同时不希望扩大云数据中心空间,那么云服务是至关重要的。还可以将一些云存储与更小、更高效的云数据中心结合起来,从而确保未来的云数据中心更有效,更好地保护环境。其实,云数据中心功耗的快速增长并不是产业发展的正常结果,而是由不合理的规划、设计和使用造成的。但在实际应用中,大多数云数据中心的PUE都在2.6以上,即便如此,局部热点所导致的云数据中心故障仍时有发生。要想合理利用资源,高水平的电力管理必不可少。要遏制飞速增长的电力消耗,就需要对基础数据有详细的了解,越详细越好。