• 快捷搜索
  • 全站搜索

同城双活数据中心资源分布研究方法

2017-12-12 16:36:46作者:中国工商银行数据中心(上海) 张新晖 吴声 李耕寅编辑:金融咨询网
本文提出了一种基于业务负载的同城双活数据中心资源分布研究方法:该方法及模型得到了生产实际数据的有效检验,在工商银行实际运维和资源规划方面发挥了良好的效益。

工商银行在国内银行业率先建立起了核心主机系统“两地三中心”的架构模式,实现从传统灾备恢复模式向双中心并行运行的业务连续模式转型,全行业务连续性服务能力得到进一步提升。同城双活的主机核心系统同时对外提供业务服务,目前的双活模式主要是主中心(以下简称“A站点”)提供存取款、汇款、理财和投资等全渠道的金融服务,而双活中心(以下简称“B站点”)主要提供客户信息、资金余额等查询类服务。

  国内大型商业银行的核心业务系统基本上都采用IBM大型主机为技术平台,对于核心主机性能容量的深入研究有了一定的基础和方法。工商银行数据中心(上海)在这方面做了大量工作,建立起了交易量、交易响应效率及资源消耗之间的分析模型并且达到了一定的成熟度:而对于同城双活两个站点之间的类似研究目前基本上还处于空白,因此本文提出一种基于A、B两个站点交易率、核心批量和B站点资源消耗的分析方法和模型,力图找出两个站点之间资源使用的关联关系,从而为总体的资源规划和业务高峰保障提供技术支持。

一、“两地三中心”的架构

  工商银行“两地三中心"的总体架构如图1、图2所示。三个中心分别部署硬件配置,形成三套独立的IT基础架构;同城双中心间通过数据库异步复制和磁盘同步复制实现数据同步;通过切换控制系统将联机和批量负载在同城双中心间切换调度。北京(C站点)和上海(A、B站点)通过磁盘异步复制实现数据同步,自动化切换系统实现异地间系统切换。

图片1.jpg

图片2.jpg

  “两地三中心”架构的同城两个站点存在以下两种运行模式。

  (1)日常运行模式

  A站点承担大部分联机业务处理和全部核心批量业务处理,B站点承担可分离查询类联机交易和批量业务处理。在此模式下,由于A、B站点业务负载的不同,两个站点的资源配置也不同。

  (2)切换运行模式

  B站点快速切换接管A站点承担的所有联机和批量业务,实现主机系统同城双活切换运行。在此模式下,B站点会升级各类资源至切换前的A站点的水平,全量接管业务。

二、A、B站点资源消耗线性相关模型及分析

  基于“两地三中心”的基本架构,A站点负载通过数据库异步复制(Q复制)传导到B站点,故A、B站点的资源消耗是总体相关的。本文从A、B站点各自承担的负载特点入手,重点分析B站点在A站点联机及批量负载下的的资源消耗。

  1.A、B站点负载特点

  A站点业务负载主要包括联机和批量业务,衡量联机负载大小的指标为联机交易率,衡量批量负载大小的指标为批量更新率。

  按照和A站点交易率的相关性,B站点资源消耗可分为以下三类。

  (1)第一类:Q复制消耗、可分离查询交易消耗。Q复制消耗与A站点交易率直接相关;可分离查询交易消耗与A站点交易率正相关。

  (2)第二类:B站点基础消耗,包括维持主机系统各类地址空间以及B站点的UNCAP CPU消耗,主要和B站点总体CPU使用率相关。因B站点系统消耗大部分为Q复制相关的,所以B站点基础消耗与A站点交易率基本相关。

  (3)第三类:验证系统消耗。这类消耗和A站点无关。

  综上,B站点资源消耗和A站点交易率相关性如表1所示。

图片3.jpg

  制作某日系统交易率达峰值时,9点至16点间的B站点CPU堆积图如图3所示,A站点交易率如图4所示二其中Q复制消耗、B站点基础消耗(图3中所示UNCAP部分和系统部分)、可分离查询交易(图3中所示CICS)消耗都与A站点交易率呈现出一定的相关性,符合上文的分析。

图片4.jpg

图片5.jpg

   2.B站点资源消耗模型

   B站点资源消耗和A站点交易率存在较高的相关性,因此可以通过研究两者之间的关系,较准确地把握B站点所需的MIPS情况。此外,A站点的批量业务也会导致B站点Q复制消耗增加。

  综合两者的影响,可以得出B站点消耗MIPS和A站点交易率、批量更新率之间的解析关系,用公式Z=aX+bY+c来表述。

  其中X为A站点交易率,Y为A站点批量更新率,a为交易率与MIPS之间的关系系数,b为批量更新率与MIPS之间的关系系数,c为常量系数。

  因公式Z=aX+bY+c中存在两个自变量交易率X和批量更新率Y,所以必须采用变量控制法,分别研究Y=0和X=0时,a、b和c的值。

  3.A站点联机交易率与B站点MIPS的关系

  选取上午9:30~10:45和下午14:30~15:45业务高峰期间,相对批量业务影响较小的时问段,总共6300多个采样点进行分析。以A站点交易率为x轴,B站点消耗MIPS为Y轴,形成散点图(如图5所示)。其中,B站点消耗MIPS包含了Q复制消耗、可分离查询交易消耗和基础消耗。

图片6.jpg

  可得到经验公式:B站点消耗MIPS=1.65*交易率+1838
  
  相关系数R2=0.9632,表明B站点消耗MIPS和交易率间的线性相关性非常强,公式可信度很高。公式说明A站点每发生一笔联机交易,B站点约消耗1.65MIPS(当B站点不运行可分离查询交易时,联机相关系数从1.65调整到1.41)。

   4.A站点批量更新率与B站点MIPS关系

   选取凌晨0:00~02:00批量业务高峰期间,总共5100多个采样点进行分析。以A站点批量更新率为X轴,B站点消耗MIPS为Y轴,形成散点图(如图6所示)。

图片7.jpg

  可得到经验公式:B站点消耗MIPS=0.077*更新率+2481

  相关系数R2=0.8049,表明B站点消耗MIPS和批量更新率间的线性相关性较强,公式可信度较高。公式说明A站点批量每更新一笔记录,B站点约消耗0.077MIPS。

   5.总拟合公式

   总拟合公式原型为:

   B站点消耗MIPS=1.65*交易率+0.077*更新率+常数C

   其中,C的取值范围根据A站点联机和批量负载的不同在1838至2481之间。

  考虑到总拟合公式原型是建立在散点图基础上的,如需覆盖尽量多的采样点,需在常数C上增加一定的标准差。假设散点符合正态分布,以2倍标准差为容许宽度,将包含95%的采样点值,此时常数C取值为5341,其中3182为B站点基础消耗,2159为验证系统消耗(如图7所示)。总拟合公式相应调整为:

图片8.jpg

  B站点消耗MIPS=1.6 5*交易率+0.077*更新率+5341

  其中,1.65为联机相关系数,A站点每发生一笔联机交易,B站点约消耗1.65MIPS;0.077为批量相关系数,A站点批量每更新一笔记录,B站点约消耗0.077MIPS;5341为线性拟合后得出的常量,逻辑上对应B站点基础消耗及验证系统消耗。

  备注:上述公式是在B站点常态化运行可分离查询交易场景下分析得出的,如B站点可分离查询交易回切至A站点,则联机相关系数需从1.65调整到1.41;如B站点停用验证系统,则常量从5341调整为3182。

三、A、B站点资源消耗线性相关模型测试验证

  考虑到A站点联机及批量高峰期,Q复制负载较大,相当于对B站点实施了压力测试。故通过分析相关联机高峰及批量高峰日的B站点性能表现,可达到类似B站点压力测试的效果。

  1.场景一:A站点春节前夕高峰

  以2016年2月5日15:04春节前夕高峰为例,当时交易率为9783,无日间批量业务,B站点验证系统处于停用状态,B站点总体CPU使用率86.85%,Q复制及可分离查询交易运行稳定,通过公式计算得出B站点消耗MIPS为19323,与实际18757相比,误差率为3%。

  注:B站点消耗MlPS=1.65*9783+0.077*0+3182=19323(验证系统停用时,常量3182)

  2.场景二:A站点核心批量运行期间

  以2016年1月5日00:25典型批量高峰为例,批量更新率为119000行/秒,联机交易率为1345,可分离查询交易回切至A站点,B站点总体CPU使用率73.31%,Q复制运行稳定,B站点验证系统处于正常状态,通过公式计算得出B站点消耗MIPS为16400,与实际15393相比,误差率为6.1%。

  3.场景三:A站点联机高峰叠加批量高峰

  2016年2月4日11:35时核心联机业务高峰伴随代理业务批量更新,交易率8389,批量更新率约12000行/秒,通过公式计算得出B站点消耗MIPS为20849,理论上B站点CPU利用率达96%;实际由于Q复制负载不均,PP2B CPU利用率接近100%,CPU资源紧张引发Q复制延迟。实际与理论基本相符。

四、A、B站点资源规划分析

  上述联机及批量高峰期,B站点实际消耗MIPS与理论消耗MIPS基本相符。

  在A、B站点总体MIPS恒定情况下,存在理论上的最优比例配置,使得A、B站点可支持的最大交易率相等。

  根据资源模拟分析TPM工具,线性拟合可以得出,A站点MIPS与交易率关系在交易率4000笔/秒以上,联机CPU利用率80%以下时,基本符合如下关系式:

  A站点MIPS=14.45*联机交易率-30425

  根据前文,B站点MIPS公式如下:

  B站点MIPS=1.65术联机交易率+0.077*批量更新率+5341

  当上述两个公式的联机交易率相等,且批量更新率为15000行/秒时,代入计算得出:

  B站点MIPS=0.114*A站点MIPS+9970

  代入当前配置值,可计算出A、B站点最佳配比约为5.2:1;在A、B站点相对平衡的基础上,后续按照9:1(由比例系数0.114得出)比例关系实施资源升级,可保障A、B站点持续平衡。

  本文提出了一种基于业务负载的同城双活数据中心资源分布研究方法:该方法及模型得到了生产实际数据的有效检验,在工商银行实际运维和资源规划方面发挥了良好的效益。线性相关公式有效指导了B站点高峰保障:通过限制A站点批量、停用验证系统等手段降压限流,确保B站点性能稳定。资源配比分析从理论上明确了后续的资源升级配置方案,有效提高了资源利用效率。

(文章来源:中国金融电脑杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章