• 快捷搜索
  • 全站搜索

基于大数据分析技术创新智能运维体系

2015-02-25 15:19:55作者:中国农业银行软件开发中心 张会根 张博 赵焕芳编辑:金融咨询网
国内银行业对大数据分析技术的应用更多集中在对业务发展的研究与探索,在系统运维方面应用较少。借助大数据分析技术打造智能化运维体系,形成智能感知、智能预警、智能处理的智能运维服务体系,以求能够实现事前预测、事后快速处理,逐渐成为新的探索方向。

得益于中国农业银行IT系统设计对日志建设的长远规划,目前已经积累了大量的日志数据。利用大数据技术,可以更大限度地挖掘这些海量日志所蕴合的价值。结合系统运维对故障监控和预判的需求,本文对应用日志进行了一系列分析探索,建立了动态的监控模型,可实时监控系统状态,并在部分故障发生前发出预警信号,实现早预警、早处置。

一、背景及分析思路

        随着互联网金融在创新中普及,银行业务电子化程度和连续性要求将进一步提高,进而对IT系统的运维带来深刻影响。一方面进行系统运维的时间窗口将越来越小,甚至要求“无感知运维”;另一方面,关键业务将对重大故障呈现“零容忍”。面对新的挑战,原有基于监控的运维体系(基于监控数据结合经验判断),在事前排除故障和事后故障恢复方面仍有很多改进空间。

        国内银行业对大数据分析技术的应用更多集中在对业务发展的研究与探索,在系统运维方面应用较少。借助大数据分析技术打造智能化运维体系,形成智能感知、智能预警、智能处理的智能运维服务体系,以求能够实现事前预测、事后快速处理,逐渐成为新的探索方向。

        智能运维最为基础和关键的问题是预测故障的发生。为实现该目标,本文以系统承载应用的特征作为切入点,进行故障预测和问题分析,弥补传统运维方式的不足。首先收集系统上承载应用的数据,完成预测模型的开发。然后,借助模型实时预测系统故障的概率,当发生预警信号时尽快启动运维预案。与传统思路相比具有如下特点。

        一是从系统承载的应用数据分析,从系统用户的角度感知故障,而不是从系统硬件资源方面间接分析。二是借助数据分析技术建立预测模型,客观准确捕获故障前的征兆,进而预测故障。三是基于模型自动预测、预警,实现对系统故障自动化的感知、预测、预警,并可以将信号与处置机制自动对接。

二、应用案例

        1.数据采集

        本文选择某内部管理系统作为目标分析系统,经过与系统专家访谈,确定了建模基础数据范围,包含系统登录日志、交易日志和异常日志。获取了2013年3~11月的历史数据用以模型开发和验证。获取源数据后进行加工处理,产生登录量、登出量、失败量、交易量、异常量等5个基础变量。为平滑各频数指标波动性,及保障预测的及时性,本文选择5分钟的时间粒度对上述指标进行汇总,分别建立频数时间序列。

        2.数据探索

        首先将数据划分为模型训练集、验证集和测试集。然后对数据采集阶段加工形成的5个变量分别进行观察,可以发现:正常工作日上午、下午有两个波峰,波动趋势相似但幅度会有差别;周末等非工作日,交易量相对较小,且形状不规则;发生故障的时点,系统交易量快速下降,系统恢复运行后回到高位。

        结合系统运维记录进行分析,发现登录量、登出量、交易量在业务层面能够整体反映系统的服务性能,不受业务指导影响;数据层面存在相同的趋势性,且各自具有自身波动性,因此选择该集合作为可靠的预测基础变量。异常量和失败量对预测系统亚健康尤为重要,但是基于以下两点原因的则被排除。

        一是通过观察没有发现规律性,异常量在故障修复后有突增,波动性较大。同时日志记录逻辑不严谨,不能进一步根据异常发生原因进行细分分析。二是登录失败,往往是因为账户或密码输入错误,系统发生宕机等故障时,难以及时写入日志;且本身数据量较小,其波动性远高于登入量和登出量,基于此做预测稳定性不足。

        3.模型开发

        (1)数据预处理和预分析。基于模型开发数据集,观察系统发生故障时点前,系统处于亚健康状态时各基础变量的特征,寻找其中的规律性变化。通过对10多个有运维记录指明发生故障的时点前变量变化特征观察,总结如下。

        一是故障发生时系统变量(交易量、登录量、等出量)与正常工作日同时段相比,降到比较低的水平。二是故障发生前变量逐步降低,通过数个周期后达到故障点,当波形发生明显异常时,距离故障记录点仍有一段时间。

        (2)建立参考波动区间。即基于对历史数据的分析,确定每个时刻观察变量的正常区间。为使不同工作日相同时点的频数序列具有可比性,首先需要对数据进行标准化,公式如下:

基于大数据分析技术的智能运维体系探索-公式1.jpg

        其中Ii(t),t时刻第i个标准变量的原始输入值;基于大数据分析技术的智能运维体系探索-公式2.jpg,t时刻第i个标准变量的标准化系数,即当日均值;Vi(t)为标准化后变量值,即频数相对比率。经检验Vi(t)的波动近似服从正态分布,因此设置置信度为95%,得出预测区间基于大数据分析技术的智能运维体系探索-公式3.jpg,取其边界为Vi(t)的预测区间。其中基于大数据分析技术的智能运维体系探索-公式4.jpg,为第i个标准变量在模型训练集中有效工作日t时刻的均值,基于大数据分析技术的智能运维体系探索-公式5.jpg,为t时刻第i个标准变量的标准差。当Vi(t)的值超越边界时,发出预警信号。

        (3)建立调整因子序列。频数标准化依赖当日均值,而实时监控时无法直接获取该项数据,因此引入调整因子指标,通过当日累积频数来估计当如均值,定义如下:

基于大数据分析技术的智能运维体系探索-公式6.jpg

        调整因子向量,即一天内不同时刻(共288个时刻)累积频数占当日总频数的百分比,以M天的数据计算均值。调整因子是否有效取决于其在不同工作目的稳定性,我们统计了每个时刻调整因子在M天分布的变异系数基于大数据分析技术的智能运维体系探索-公式7.jpg。变异系数从每天的开始时点(凌晨零点)起稳步下降,即估算结果相对稳定性逐步提高。至上班时间8:30,登入量变异系数0.18,登出量变异系数0.30,交易量变异系数0.22,综合考虑模型稳定性和模型应用场景,模型设定预警功能每8:00开启。

        建立调整因子序列后,可以在当前时刻用累积频数基于大数据分析技术的智能运维体系探索-公式8.jpg估计当日均值基于大数据分析技术的智能运维体系探索-公式9.jpg,对当前频数序列进行标准化,进而判断是否位于参考波动区间内。

        (4)预警信号加权规则。基于交易量、登录量、登出量3个基础变量设计的预警指标均会产生预警信号。

基于大数据分析技术的智能运维体系探索-公式10.jpg

        其中,Vi(t)为t时刻第i个变量的相对值;V’i(t)为t时刻第i个标准变量的下边界值,Si(t)为t时刻第j个信号量的值。为提高预警信号的准确度,将3个信号量进行加权产生最终的三级预警信号,进而根据预警信号的值产生警报。具体公式如下:

基于大数据分析技术的智能运维体系探索-公式11.jpg

        其中,di为信号量的权重,基于大数据分析技术的智能运维体系探索-公式12.jpg;T为模型开启时间点。针对目标系统数据情况,确定交易量、登录量、登出量3个信号的加权系数分别为0.4、0.4、0.2。

        (5)模型适用性说明。适用于会影响到系统整体响应服务能力的重大故障,且系统访问量平稳性较好。无法预测突发式系统崩溃,例如:服务器掉电,管理员异常操作导致系统硬件故障,无规律网络恶意攻击等。模型应用期间需持续监控模型预测效果,目标系统坚持进行系统故障记录,为模型优化提供数据基础。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章