• 快捷搜索
  • 全站搜索

数据中心新一代备份系统建设方案

2017-12-12 16:49:35作者:中国人寿保险股份有限公司上海数据中心 尤克勤编辑:金融咨询网
基于OST的备份架构相较于传统备份架构更加扁平化、轻量化,大幅减轻了备份系统运行压力;源端去重技术和更大的备份并发流在实现高效备份的基础上,能够很好地解决以带库驱动器为备份设备的备份架构中存在的高可用隐患。

一、人寿股份备份系统现状

  2014年1月中国人寿保险股份有限公司(以下简称“人寿股份”卡园数据中心正式投产,卡园的备份系统于同期完成建设并投产运行。卡园备份系统汲取了人寿股份集电港备份系统的建设经验,按照高性能、高可用、高利用率的原则进行设计,基于带库驱动器为备份设备的备份架构,是业界十分成熟且广泛应用的备份架构;采用SAN网络备份和LAN网络备份相结合的备份方式,合理有效地利用备份设备资源,在功能上能够满足大部分常规的数据对象备份需求;在性能上,通过备份计划上的精细设计,能够满足大部分的生产系统在数据备份窗口内完成备份;投产运行至今整体运行比较稳定。

  在卡园数据中心的备份系统分为两个备份域,分别负责不同的生产系统的数据备份。备份软件采用EMC公司的EMC Networker软件(8.1.x),备份设备为昆腾公司的Dxi8500虚拟带库和i6000物理带库。物理带库主要用于生产系统全备份、差异备份;虚拟带库主要用于生产系统归档日志备份和清理,是生产系统持续运行的重要保障。

  当前备份系统共计保护数据量约2.8PB,每天备份的数据量约100TB;备份峰值性能达到6GB/s,150路并发;可以看出,人寿股份的备份规模巨大,已经被列为EMC NetWorker在亚太地区最庞大的备份环境。

二、备份系统面临问题

  在大型数据中心的复杂环境中,目前的备份架构存在一些运行安全隐患和运维难题,同时部分设备的高可用性问题也影响到系统的稳定运行。主要问题有以下几方面。

  1.备份系统的稳定性问题

  在使用带库驱动器为备份设备的架构中,备份系统以存储节点为中心,为了实现SAN备份,大量生产服务器需要配置为存储节点,并通过SAN直接识别大量共享带库驱动器。但是过多的存储节点和共享驱动器会使备份服务器负载过高,影响备份系统的稳定性。

  目前人寿股份集电港、卡园所有备份域覆盖100多套生产系统,总的客户机数量超过1500台,存储节点数量超过450个,共享驱动器总数达到1677个。为了避免过多的存储节点和共享驱动器造成备份系统的负载过高,人寿股份卡园数据中心备份系统已经拆分为2个备份域,以缓解运行压力。即使如此,随着生产系统压力的增加,近期仍然发生了备份服务器压力过大引起的宕机切换。目前,人寿股份已经在计划将其扩展至3个备份域。然而更多的备份域也带来了新的问题,例如运维人力需求的增加、备份资源无法有效共享等。

  2.共享存储节点的高可用性问题

  除了SAN备份,人寿股份还广泛采用LAN备份,即大部分数据量较小的生产系统备份数据先通过网络传输至几台共享存储节点,再由共享存储节点通过SAN将备份数据写入备份设备。LAN备份能更高效地共享驱动器资源,并减少SAN投资。

  但是在使用带库驱动器为备份设备的架构下,用于LAN备份的共享存储节点之间无法做到互为备份。一旦某个共享存储节点发生故障,备份软件无法自动选择切换至其他共享存储节点,导致大量的LAN备份无法进行,因此共享存储节点的可用性也需要进一步提高。

  3.虚拟带库的高可用性问题

  根据目前的架构,虚拟带库承担了极其重要的归档日志定时备份和清理职责,与生产系统的持续运行有密切关系。目前卡园数据中心的备份系统使用的虚拟带库是昆腾Dxi8500,采购于2012年,该虚拟带库光纤在备份链路上无法实现冗余(2012年市场上还没有能够实现链路冗余的虚拟带库产品),一旦有链路瞬断,将直接导致该链路上所有虚拟出来的驱动器设备不可用,继而导致相关的生产系统归档日志备份和清理无法按计划进行,对生产系统持续运行带来风险,在实际生产中已经发生过多次该类事件。此外,该虚拟带库的核心组忙带库控制机头是单节点架构,一旦控制器机头出现故障,虚拟带库整体无法使用,将导致所有备份任务中断。

  4.日常运维复杂繁重

  在带库驱动器为备份设备的架构下,每个备份任务必须关联到某个驱动器进行备份,因此需要针对每个驱动器,根据备份数据量精心设计备份任务排班表。目前集电港、卡园所有备份域总的客户机数量超过1500台,如此大规模的备份环境,备份任务排班变得极其复杂。更麻烦的是,如果前一个备份任务意外运行超时,会造成后续备份任务的排队等待,无法保障恢复点目标(Recovery Point Object,RPO)。

  目前环境的共享驱动器数量已经达到1677个,当一个驱动器所在SAN网络链路中任何一个环节(主机端、带库端、SAN交换机端、中间线缆端)出现故障,就会牵涉很多主机及相关生产系统的备份任务。因为涉及环境复杂,后续故障排查定位需要花费大量时间。

  在当前备份架构下,对每台新增生产服务器配置备份,都需要四个主要步骤,即划Zone、映射驱动器、扫描驱动器、配置存储节点,步骤繁复且容易对生产服务器造成干扰。在初次识别驱动器以及后续运行过程中,会发生需要重启生产服务器才能识别到驱动器的情况,增加了生产系统停机时间。

  综上所述,目前备份系统存在的安全隐患如图1所示。

图片10.jpg

  同时,由于备份系统负责备份和清理生产系统数据库归档日志,导致备份系统中断,也将对生产系统持续运行产生一定隐患,因此,需要对备份系统进行高可用优化(理论上在归档空间充足的情况下,归档备份和清理中断不会对生产系统运行有任何影响)。

  为了彻底解决目前备份系统运行中存在的安全隐患,需要对备份架构以及相关备份设备进行调整。从以带库驱动器为备份设备的架构,调整为基于Open Storage Technology (OST)的备份架构,同时需要满足虚拟带库、存储节点高可用性的需求。

  随着近年来大量智能磁盘备份设备的推出,基于OST的备份架构逐渐成为业界成熟的备份架构。OST是一种备份软件和智能备份设备之间通信的API,能使备份软件更好地协同智能备份设备,实现了扁平化的架构(去驱动器/存储节点)和便捷的扩展性,同时还提供了强大的备份性能和丰富的备份功能,如提供更大量的备份并发数、针对大容量文件备份的虚拟合成技术、实现智能的空间回收、网络负载均衡、智能底层复制等。

  基于OST的备份架构需要备份软件和备份设备同时支持OST,目前支持OST备份架构的备份软件有EMC Networker、Veritas NBU和HP DP;支持OST备份架构的备份设备有Quantum、EMC、HP虚拟带库:其中,Veritas NBU支持使用Quantum、EMC虚拟带唪:EMC Networkrer支持使用EMC虚拟带库;HP DP支持HP虚拟带库。

  结合目前全系统统一使用的备份软件EMCNetworker,人寿股份设计了基于OST的备份架掏《如图2所示)。新备份架构的特性如下:

图片11.jpg

  1.备份系统扁平化、轻量化

  如图3所示,OST备份架构通过存储节点直接将数据写入支持0ST的备份设备,可大幅减少共享驱动器的使用数量。结合目前使用的EMC Networker软件,搭配EMC Data Domain使用,实现了通过客户端直接写入备份设备的方式,不仅能够实现去驱动器化,而且可大幅减少架构中的存储节点,实现了架构扁平化,大大减轻了备份服务器压力,提高了系统稳定性。

图片12.jpg

  OST备份的轻量化特点,可以使单个备份域能够支持更多的客户机,因此备份域的数量得到有效控制,节省了备份服务器的投入,优化了基础备份资源的共享,也缓解了随着备份域增加而产生的运维人力压力。

  基于数据中心万兆网络架构,结合源端去重技术,实现快速、高效的数据备份,大大简化了备份系统中SAN网络架构,也减轻备份系统与生产服务器的耦合度,实现轻量化备份架构。

   2.存储节点多活

   如图4所示,在OST备份架构下,EMC Networker搭配EMC Data Domain设备可以实现自动选择可用的存储节点(在多个存储节点之间)进行备份,解决了存储节点单点的隐患。当某个存储节点损坏时,相关备份任务将自动切换至其他可用存储节点进行备份,从而解决存储节点单点故障问题。

图片13.jpg

   3.虚拟带库高可用

   如图5所示,采用EMC Data Domain虚拟带库,通过HBA卡端口虚拟化技术支持WWPN在物理端口的自动漂移,实现了FC端口和链路冗余,有效解决了链路单点故障。

图片14.jpg

  在万兆网环境下,EMC Data Domain支持先进的Interface Group功能,实现多个网络端口的自动绑定和负载均衡。即使多个链路或多个端口发生故障,系统仍然可以正常工作,进一步提高了链路冗余和负载均衡能力。

  EMC Data Domain还支持双机头热备冗余,在一个机头出现故障时可以自动切换至另一个机头,不影响备份系统的的可用性,有效解决了虚拟带库机头的单点故障问题。

   4.易于扩展,简化运维,便于共享

   如图6所示,在新的OST备份架构中,支持OST的备份设备资源只需加入网络即可投入生产使用。而且在后续添加备份客户端时,省去了SAN网络复杂的配置、带库端设备绑定、主机端设备识别等步骤,极大方便了备份资源扩展。同时,由于新架构实现了备份设备与备份客户端的解耦,单个备份域能同时支持数千个客户端的并发高速备份。

图片15.jpg

  如图7所示,在新架构下,驱动器数量的大幅减少,降低了以往备份系统日常运行中常见的驱动器相关故障发生的次数,提高了备份任务执行的成功率,也省去了异常复杂的驱动器故障排障工作。同时OST架构还能够提供更大的备份并发流,使得备份任务计划安排无需再与驱动器绑定,简化了备份任务安排。

图片16.jpg

   虚拟带库采用OST的模式后,使得资源池化,在同一个备份域中能够便捷地供给各个生产系统备份使用,同时也能够十分便捷地在多个备份域之间共享使用。

  另外,人寿股份使用的虚拟云团备份系统,采用了Avamar作为备份平台,也能支持直接把备份数据写入EMC Data Domain,从而构建统一数据保护存储平台,实现了各个备份平台之间的备份设备资源共享。

  综上所述,基于OST的备份架构相较于传统备份架构更加扁平化、轻量化,大幅减轻了备份系统运行压力;源端去重技术和更大的备份并发流在实现高效备份的基础上,能够很好地解决以带库驱动器为备份设备的备份架构中存在的高可用隐患;同时实现了资源便捷的扩展,有效增加了资源的利用率;简化了日常备份任务安排工作,省去了大量驱动器的运维工作。

(文章来源:中国金融电脑杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章