• 快捷搜索
  • 全站搜索

全生命周期应急管理模型研究与实践

2016-03-30 15:39:48作者:中国农业银行 孙伟 许国平 范福军 王珂编辑:金融咨询网
本文对商业银行信息系统应急管理进行了研究,提出了基于全生命周期的应急管理模型,并在大型商业银行进行了实践,验证了该模型对于信息系统应急管理工作的有效性,提升了应对突发事件的应急管理能力。

随着我国金融市场不断发展,信息系统建设已成为商业银行核心竞争力之一,担负着促进金融服务和管理创新、保障信息安全的重要使命。商业银行要确保信息系统安全稳定运行,保障业务连续性,就必须不断加强信息系统应急管理,提高应急能力。

  提高突发事件应急能力,就需要对银行业机构面临的突发性事件来源进行研究,完善应急预案,加强应急演练,建设灾备系统,同时从日常工作中规避应急风险,同时,各商业银行也进行了多方面的研究和尝试,以风险管理为指导,以应急预案建设为主体,推动应急管理工作全面开展,并通过与日常生产运行管理、灾难恢复管理和业务连续性管理结合,研究建立信息系统应急管理体系。但这些研究多数是对信息系统运维阶段的应急管理工作进行研究,对于信息系统生命周期内的其他阶段,如在需求、开发阶段,如何研制应急需求,避免产生应急突发事件,从根源上减少应急事件的产生,还需要进一步研究。因此,商业银行需结合软件产品生命周期,探索应急管理前移,将运维阶段的突发事件应急研究,扩展到信息系统整个生命周期内,从根源上减少突发事件出现的可能。
  
一、商业银行信息系统生命周期

  GB8566-88《计算机软件开发规范》标准将软件生命周期划分为计划阶段、研发阶段、运维阶段等三个阶段和提出要求、可行性分析等10个步骤(如图1所示)。

商业银行信息系统全生命周期应急管理模型研究与实践-图1.jpg

  国内外学者对软件产品生命周期模型进行了大量研究,主要包括线性顺序模型(瀑布模型),原型生存模型(原型模型),快速开发模型,渐进式开发模型(增量模型、螺旋模型、多点开发模型等),其中最广为人知的是W.Royce于1970年提出的瀑布模型(如图2所示)。瀑布模型将软件生命周期分为定义阶段、开发阶段、维护阶段等三个阶段和6个基本活动。

商业银行信息系统全生命周期应急管理模型研究与实践-图2.jpg

  商业银行信息系统具有软件产品的一般属性,又具有其自身特点,特别是大型国有商业银行信息系统在风险事件的破坏性、影响面、隐蔽性、专业性等方面均更具特点。商业银行的业务需实时集中处理,IT风险会迅速扩散,损失更为惨重,局部IT故障可能导致商业银行整体故障甚至瘫痪,商业银行与外部机构(如同业、外部市场)具有一定的传导效应,极容易放大科技风险影响范围,单点问题容易引起直接威胁整个金融体系的风险。

  从风险防控角度而言,商业银行信息系统全生命周期在传统软件产品生命周期理论基础上有所侧重和裁剪。在定义与计划阶段,商业银行IT部门作为运营业务的后台支撑部门,需要在满足业务经营和管理监管需求基础上进行信息系统建设和维护,其主要活动包含需求分析和定义。在开发阶段,商业银行IT建设要对需求进行分析,通过系统设计和编码测试来实现信息系统以满足业务功能,包括最重要的系统设计、开发、测试三个过程。运行阶段是信息系统周期最长、工作最为复杂的阶段,除了日常业务连续性保障工作之外,风险最高的阶段是信息系统投产上线,需要进行精心规划和演练才能顺利实施。因此商业银行信息系统全生命周期可归纳为需求阶段、开发阶段、投产阶段和运维阶段等四个阶段(如图3所示)。

商业银行信息系统全生命周期应急管理模型研究与实践-图3.jpg

二、全生命周期应急管理模型

  目前商业银行应急管理一般是指信息系统在运维阶段发生突发事件之后的应急响应与事件处置相关管理活动,商业银行通过制度保障、组织分工、应急流程、责任管理、应急技术等方面加强信息系统的监测预警能力、提高应急响应速度、加快应急处置效率。如何从事后被动救火管理转化为主动应急管理,如何实现“有急必应,无急可应”的愿景,则需要将应急管理的活动和技术贯穿于整个信息系统的全生命周期。

  信息系统全生命周期应急管理将应急管理理念放在整个信息系统的生命周期中进行通盘考虑,在需求、开发、投产、运维阶段充分预估突发事件的应急场景,以“应急管理前移”为核心,通过管理活动与技术手段避免突发事件的发生,在突发事件发生后能够及时监测预警,并有序进行处置。通过对信息系统生命周期各阶段的管理活动与技术手段进行研究,提出商业银行信息系统全生命周期应急管理活动与技术模型,称为信息系统全生命周期应急管理模型,该模型包括全生命周期(Life cycle)、活动(Activity)、技术(Technology)三个关键方面,简称C—AT模型。(如图4所示)。

商业银行信息系统全生命周期应急管理模型研究与实践-图4.jpg

  需求阶段需组建运维团队并制定应急需求,运维团队应介入需求制定活动,提出运维保障和应急管理相关需求,比如监测报警、自动冲正、自动部署等需求,提高系统的健壮性与高可用性,进而确保信息系统安全稳定运行,采用知识库技术(如应急场景库、历史事件库、应急需求库等)为应急需求的制定提供参考。

  开发阶段需要进行运行架构设计、应急需求开发和应急功能测试,应充分预测系统投产之后的运行情况,根据预测结果设计系统的运行架构(如服务器部署、磁盘空间、内存空间、访问量、系统吞吐量等),根据设计情况对应急相关需求进行程序开发与测试,运维团队要根据应急场景编制测试用例,并对应急功能进行测试验收,采取企业资产架构库、信息系统关联视图等为系统的运行架构设计提供支持。

  投产阶段是突发事件矛盾集中爆发的阶段,应做好主动应急工作,预防突发事件发生,主要包括变更管理、预案管理、特护管理等活动。通过变更管理对信息系统上线过程进行规范与审批,使之流程规范化;通过预案管理对投产中的应急情况进行提前准备,使之风险可控化;通过特护管理进行主动应急,使之处置高效化。采用变更管理平台、自动部署等系统,对信息系统的投产过程进行规范化管理,避免信息系统投产因审批不合规、流程不合理而引发生产事件,实现投产过程的自动化,避免因人工操作失误引起的风险事件。

  运维阶段是应急管理最为重要的阶段,包含信息系统的监测告警、应急响应、事件处置、持续改进等关键活动。在日常运维时,可通过对生产运行数据实时统计分析,发现潜在风险,并自动发送报警信息,分析数据还可用于自动化处置技术和智能运维技术。在突发事件发生时,通过监测预警平台发出告警,运维人员接警后进行响应、汇报、人员集结,之后确定恢复方案并进行事件处置,系统恢复后进行总结并改进。在技术上采取监测预警技术、多方会商平台、自动处置技术等,通过监测预警技术对信息系统实现自动监测,当问题发生时及时告警,运用会商技术实现事件的快速响应、信息的快速发布、处置人员的快速集合,自动处置技术将事件处置过程进行一键式、自动化处置,实现处置过程的高效性。
  
三、全生命周期应急管理模型实践

  某商业银行(下称“A行”)为大型国有商业银行,以C—AT模型为指导,在活动和技术方面进行了大量的实践。

  A行从制度管理、组织管理、流程管理、责任管理和能力管理等方面开展管理活动实践,明确要求信息系统从立项开始,到需求分析、系统设计、开发测试、投产上线、运行维护,直到项目终止,每个阶段都要兼顾应急管理相关计划与应急行动方案,把应急管理贯穿整个信息系统的全生命周期,逐步形成了信息系统应急管理活动体系。

  同时,A行整合了应急相关的人力、软件、硬件资源,包括全生命周期内各个阶段与应急工作有关的应用系统、接口、技术、文档、人力资源和环境等,构建应急管理技术架构体系,主要包括知识库、变更管理、监测预警、应急会商、自动处置等技术,其中,知识库技术主要用于需求和开发阶段,变更管理技术主要用于投产阶段,监测预警、应急会商和自动处置技术主要用于运维阶段。

  通过对C—AT模型的实践,A行对突发事件的应急管理取得了明显效果,应急处置效率提高,应急事件数量明显减少。以某7×24小时核心系统为例,日均交易量在2012~2014年增长了70%,应急事件处置时间却减少了48%(如图5左侧所示);某核心管理系统2011~2014年日均交易量增长了103%,但每年处置的突发事件数量却减少了3l%(如图5右侧所示)。

商业银行信息系统全生命周期应急管理模型研究与实践-图5.jpg

   综上,本文对商业银行信息系统应急管理进行了研究,提出了基于全生命周期的应急管理模型,并在大型商业银行进行了实践,验证了该模型对于信息系统应急管理工作的有效性,提升了应对突发事件的应急管理能力。该方法在部门级(一级部)进行了实践,其通用型、规模性还有待加强,此外,C—AT模型中的A(活动)、T(技术)的评价指标只是进行了高、中、低三个层级的划分,具体指标有待进一步细化。

(文章来源:《中国金融电脑》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章