• 快捷搜索
  • 全站搜索

容量评估管理方式探索

2016-08-15 15:22:12作者:中国建设银行上海分行信息技术部 万方达编辑:金融咨询网
建设银行尝试利用数据分析与建模技术在广域网专线容量管理上进行了一番探索,通过引入分位数统计指标、自相关模式判定、时间序列ARIMA模型、蒙特卡洛模拟仿真等统计分析工具,结合排队论进行业务需求的压力预测,形成了一整套容量管理策略,较好地革新了传统管理方式的不足,并在实际运营中得到了验证。

ITIL  容量管理是为了保证成本合理的IT容量,及时地满足现在及将来的业务需求。但在实践中,由于缺乏数据分析方法,面对剧烈变化的业务需求和快速迭代应用投产时,基于经验评估的容量调整策略无法及时准确预估服务能力,或是一时冲动的过度扩容,或是在资源缩减前踟蹰不前,造成在业务扩张、IT支撑、运营成本之间无谓“摇摆”。

        我行主动尝试利用数据分析与建模技术在广域网专线容量管理上进行了一番探索,通过引入分位数统计指标、自相关模式判定、时间序列ARIMA模型、蒙特卡洛模拟仿真等统计分析工具,结合排队论进行业务需求的压力预测,形成了一整套容量管理策略,较好地革新了传统管理方式的不足,并在实际运营中得到了验证。

一、整体设计

        该方法利用现有运行监控平台数据,只在数据仓库对数据梳理、在展现层对展现工具做了重新定义。

        在数据梳理上,我行将相同特征的应用系统进行分类归并,使得研究线路容量负载就是分析各类应用流量,方便了因果关系的量化表述。归并过程是将全行应用系统按其时延和重要性,再根据源目的IP、协议类型、源目的端口等5元组要素归并为语音视频流量、实时交易业务、批量传输业务等7种类型应用。归并策略和QoS策略相一致,使得最后的分析结果也能指导QoS策略规划。

        在展现层上,我行转而使用专业统计分析工具SPSS,通过ODBC直接对接性能数据仓库。

二、容量使用率评估标准

        传统容量评估方法通常是“每分钟采样,对采样值计算平均值、极值”。这样的算术平均数无法全面反映数据抖动情况,且不便于不同观察周期的稳定性比较。在一个观察采样周期内的多个采样点中,流量突发(突降)的次数在总采样数中的占比也就是发生采样值超过(低于)既定繁忙(空闲)阈值的概率,故可以使用百分位数(Percentile)统计算法计算发生越界值的概率。同时,在描述容量使用率时,为了极值等离散指标,引入了标准差(Standard Deviation)来描述其离散趋势,以及变异系数(Coefficient of Variation)以比较不同线路或同一线路在不同观察周期的离散度变化。

        据此,我行提出了如下评估方式。其中,P%为容忍度,γ是容量数据(线路总流量)中第P百分位数的值,BW是容量全值(线路预购带宽),α(是容量利用率(线路带宽利用率)的空闲阈值,β是繁忙阈值。考虑广域网两端协议信令交互,一般预留15%带宽给信令通道和缓冲区,故α=60%,β=85%。

        1.当γ/BW≥β,认为容量已经拥塞;

        2.当α<γ/BW<β,认为在P%的概率下,容量利用率正常,既无拥塞也不空闲;(1一P)%的概率下发生拥塞;

        3.当γ/BW≤α,认为在P%的概率下,容量利用率为闲置。

        容忍度(P%)关乎网络传输质量,其值越高,表示对线路拥塞的期望越低。我行通过持续观察,根据线路总流量频率直方图近似于正态分布的特性,将线路总流量近似为正态分布。据此,如果将距离平均值±3个标准差的数值分布99.7%设为容忍度P则会过于严苛,运营成本激增,故取95.4%的样本数值(距离平均值±2个标准差)为容忍度P。

        有规律的突发流量预示着后台服务性能瓶颈、前台业务模式调整、QoS策略匹配失效等问题,必须对其进行模式识别。通过时间序列自相关(ACF)检测,判断突发流量究竟是否存在内部相关性和变化规律,即是否独立性(白噪声)。对于存在自相关性的突发流量时间序列,使用流量分析工具并结合业务量统计,分析这些规律突发的背后成因。对于判定为白噪声的突发流量时间序列,则可以认为其不存在自相关性,是偶发事件,虽无需扩容但需检查核心交易系统的超时情况,以验证QoS策略是否能发挥预期作用。

        以我行某分行5月某线路出方向突发流量数据为例,其ACF的Box—Ljung统计量在1阶延迟处显著性就小于0.05,所以拒绝独立性(白噪声)假设,推断突发流量有规律可循。在偏ACF图形中,1阶偏ACF突破了置信上限(见图1),更说明了仅1阶自相关系数就可以建立突发流量的时序回归模型,必有成因。经询问业务部门得知,该行5月25日提前投产了某后台运营业务。业务模式的调整造成了出方向(上传方向)的流量激增。由此也验证了这种模式检测方法能发现突发流量的规律,发现所忽略的业务模式,并以此为契机,对新业务系统进行容量调整评估。

用的1-1.jpg

三、容量使用情况预测

        前述分析方法是对当前容量承载情况的量化描述,我们还必须对业务量的压力进行预测,结合量化分析结果,评估后期应对能力和风险。

        1.上线前新业务需求压力量化评估。传统评估方法仅根据业务规划和经验预估高峰并发量,或将所需传送总量直接平均至工作时段,推算出所需平均网络带宽。虽然基于应用逻辑,可以使用LoadRunner模拟运行压力,不仅全网模拟异常耗时耗力,而且仅凭过往经验推算今后并发量有欠妥当,必须考虑一种将业务量增长规划转化为实际运行压力指标的便捷办法。

        实际上,每个系统都是依次为队列中的客户服务,所以量化评估并发量的关键在于如何应用排队论理论进行估算。一般而言,并发量(在线用户数)满足泊松分布,且通常都远大于20(μ≥20),故可认为符合标准正态分布。我行使用利特尔法则(Little’s law)和Eric Man Wong的峰值并发计算方法,将应用所需处理的业务量视作“估算排队客户数”,计算平均和高峰并发业务量,再根据实测的单笔业务量的最小所需资源(即单笔业务量的最小带宽需求,也是业务最大忍受极限)对业务的需求压力给出了99.87%置信度情况下预测。这个方法仅从业务量统计分布预测应用带宽所需,不依赖测试环境条件,不局限于应用类型,所以可以方便地在每次新业务上线前进行预测。

        以我行某分行在5月25日投产的某后台运营业务为例。该业务类型是批量传输业务,单笔业务为150KB,网点实测传输时间为2秒,故每笔业务的占用带宽为0.59Mbps;系统后台应用处理时延即驻留时间(R)为1秒。业务部门提出营业日均处理笔数为1388278笔,即6小时内“客户到达率” (X)为X=1388278÷(6x60x60)≈64.27笔/秒。平时并发量(平均正在处理的业务笔数)N=X*R=64.27笔。高峰并发量(峰值正在处理的业务笔数)N’= 88.32笔。故按照每笔业务占用0.59 Mbps带宽,此业务平时带宽需求为37.66Mbps,高峰带宽需求为51.75Mbps。在上线前后流量图(见图2)上也验证了此估算方法的正确性。

用的1-2.jpg

        2.上线后长短期量化分析。新业务上线稳定运行后,不同地区用户偏好、新老系统间的交互影响会导致前期预测的偏离。所以,虽然上线前做了容量规划,但还必须根据实际运行数据进行短期估算和长期模拟,以对容量规划结果进行后评估。

        (1)短期估算。短期估算是以月为观察周期,考察对容量使用情况的影响因素如何持续作用。我行选择拟合度较好的自回归积分移动平均数(ARIMA)模型并生成预测值。在训练时,以总带宽为因变量,以7种业务类型的流量为自变量,对加法和移位水平进行离群值检查。

        上述投产的某后台运营业务在上线3天后,我行使用参数为ARIMA(1,0,0)模型在前3天的运行数据分析的基础上,对第4天情况成功进行了预测。检验指标中平稳R方为1,Ljung—Box对模型中残差错误的随机检验显著性为0.86,表示残差误差为随机。在图3中,5月28日的实际运行数据与模型推演数据重叠度非常高。

用的1-3.jpg

        (2)长期估算。经过数月的稳定运行后,可以考虑对每个业务类型的流量数据进行分布特性分析,构建总带宽(因变量)对各个业务类型流量(自变量)的回归方程。由于仅是对专线带宽的容量进行回归分析,其成因明确,关系简单,所以可以直接使用多元线性回归,在此基础上再进行蒙特卡洛随机模拟,以模拟仿真方法预测容量使用情况的极值。

        继续以上述后台运营业务为例,通过线性回归分析,得到上行方向(出方向)总流量与各类应用分组之间关系形成回归方程,蒙特卡洛模拟结果(见图4)显示95%情况下,该线路流量不会超过62 M。实际运行中线路带宽利用率情况与此相符,避免了无谓的扩容费用。

用的1-4.jpg

        总的来看,我行容量管理策略通过了实际运行考验,能方便评估业务高峰对整个系统压力和支撑能力,匹配业务规划目标下合适的IT资源,为容量预测和规划提了准确方法。

用的1-6.jpg

(文章来源:《金融电子化》杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章