• 快捷搜索
  • 全站搜索

华夏银行:主动式运维管理推动业务创新

2014-06-10 17:17:23作者:华夏银行信息技术部总经理 吴永飞 信息技术部 王文娟编辑:金融咨询网
当前,内外部环境的快速变化、业务需求的多变、业务规模/种类的扩张、产品研发与部署周期的缩短,以及客户对信息系统的愈加依赖,使银行业信息系统运维管理面临的挑战越来越复杂。如何实现主动式的运维管理模式,提前预测存在的隐患,及早缓解潜在风险,成为运维管理的发展方向。

当前,银行业信息系统运维管理面临诸多挑战,主要体现在:快速变化的内外部环境、迅速多变的业务需求、急速增长的业务规模带来的挑战;快速增长的业务种类和业务处理规模,越来越短的产品研发和部署周期,与相对有限的管理技术资源配置之间的矛盾;高度集成的业务和技术环境对信息系统提出更高要求;企业和客户乃至整个经济社会对信息系统的高度依赖,对运维管理质量和效率提出高标准和高要求;运维管理数据爆发式增长的速度与其使用价值相背离,无法为管理决策提供科学有效的支撑,等等。

  面对种种挑战,迫切需要引入先进的管理和技术手段,科学地建立决策机制,加强事前管理,提前做好管理和技术资源储备,实现主动式的运维管理模式,提前预测存在的隐患,及早缓解潜在风险。

一、信息系统运维管理自动化需求凸显

  在国外具有一定规模的商业银行,集中运维管理系统已经达到智能化、自动化、可视化、可控化和可量化的水平,系统资源高度共享。目前国内各银行都在积极探索基于数据集中模式下的、贴合自身业务需求的运维管理方法,全面实现运维操作自动化和运维监控自动化。

  华夏银行为了保障业务顺利运行,增强IT系统运行维护的实时性和高效性,于2007年开始规划并建设一套面向业务服务的一体化运维管理平台,并于2010年1月正式上线投产,从“监、管、控”三方面着手,实现管理规范的统一、管理技术的统一和管理平台的统一。

  2013年初,华夏银行开始研究生产系统智能化故障预测模型,即在已经建立的一体化运维管理平台基础上,运用业界相对成熟的预测分析算法,对海量监控数据进行挖掘分析,构建了故障预测模型。建立一套适用于华夏银行生产系统智能化的故障预测系统,对主机、数据库、应用等监控要素在未来某时点可能发生故障的概率进行有效预估,变被动运维为主动运维,提前采取有效措施,实现零风险运维。

  生产系统智能化故障预测模型解决的关键问题体现在四个方面:一是为银行海量历史监控数据抽取、存储和加载等处理过程提供参考模型;二是针对华夏银行信息系统故障预测与诊断提供参考模型;三是针对华夏银行生产系统性能容量分析和评估提供参考模型;四是建立主动预防机制,提高事前管理能力和智能化水平,提升信息安全保障能力。

二、立足当下 面向未来

  华夏银行生产系统智能化故障预测平台的架构设计既要从现有应用需求出发,又要面向未来业务和技术发展要求,在架构的先进性、实用性、扩展性、稳定性等方面保持良好的平衡,随着管理建设进一步拓展,确保满足当前和未来发展需要。

  生产系统智能化故障预测平台总体逻辑架构如图1所示。其中大数据存储管理是数据供给中心,为故障预测分析和故障诊断分析提供各类预处理后的数据。故障预测分析和故障诊断分析处理模块封装了各种建模算法及方法。而展示层则提供面向IT运维人员的故障预测及诊断服务。

生产系统智能化故障预测模型的研究应用-图1.jpg

  生产系统智能化预测平台基于原始数据信息,通过模型构建,预测分析得到各类IT运维人员所关注的问题结果。平台的数据流向如图2所示。

生产系统智能化故障预测模型的研究应用-图2.jpg

   落实到系统上的核心业务功能模块主要有:

  一是故障预测功能模型,覆盖应用、数据库、主机系统及主机硬件等层面的预测需求,分别为交易超时规模预测、数据库SQL成本预测、系统资源使用异动预测、系统资源利用趋势预测和主机硬件故障预测。

  二是故障自动诊断功能,在采用层次化管理信息模型并结合专家经验的基础上,构建面向业务服务的层次化配置管理模型,客观映射了华夏银行复杂的业务架构和应用系统内部及系统间的相互依赖关系,提高了故障自动诊断的精确度和效率,成为保障业务质量的重要手段。

  三是运维大数据管理平台,为系统中所有业务功能模块提供数据支持,具有数据抽取、数据存储、数据访问等功能。数据抽取模块是基于数据抽取模型,通过一系列抽取规则和抽取算法实现从源数据到目标数据的映射;数据存储管理模块主要提供数据的物理存储功能,为数据抽取模块提供目标数据的表结构;数据访问管理模块提供数据信息库中数据的CRUD操作接口。

  生产系统智能化故障预测模型采取规范研究与实证研究相结合的研究方法,以实证研究为主、规范研究为辅,具体策略如下:

  一是信息收集,广泛收集与本课题相关的文献资料,专家建议和成功案例。二是调研访谈,对华夏银行相关部门以及相关厂商进行针对性的沟通和访谈,获取信息用于课题深入研究。三是案例分析,通过对与本课题相关的案例进行研究,获取对本课题研究有帮助的信息。四是数据分析,包括对业务层面的业务连贯性数据及意外中断、延时数据,重要生产系统和通讯网络运行状况层面的采集数据,对基础设施的可用性和可靠性数据等等,对数据进行深入挖掘与理解,以及信息科技与业务部门之间对数据的多维关联与深入分析。五是原型法,根据数据挖掘分析的结果,将驱动因子拓扑结构作为预测模型的输入量之一,从主机系统、数据库、存储系统、应用等多个层面进行独立故障模型建立与仿真及故障模型组的联调与仿真。并通过实际生产数据进行验证,持续迭代改进。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章