• 快捷搜索
  • 全站搜索

建行海外成功上演“灾备演练大戏”

2014-04-04 15:18:08作者:中国建设银行信息技术管理部 殷勇编辑:金融咨询网
建设银行通过海外业务信息系统经过近两年的多次桌面演练、实战演练,以战练兵,全面提升了全球团队的业务重大故障应急处置能力、协同能力,以及海外业务系统的整体可用性与IT服务水平。

随着经济全球化的发展,中国建设银行努力在新的竞争格局中培育竞争优势,在“综合性、多功能、集约化”的战略导向下,加速在海外的网络布局,努力打造“领先同业的综合金融服务提供商”。

  在业务高速发展的同时,信息技术工作要与业务发展战略保持高度一致,积极提升技术对业务的支撑能力。近年来,建设银行建立全面的业务持续性管理体系,灾备能力和应急保障能力建设已经逐步从总行扩展到分支机构,从国内机构扩展到海外机构,意在整体提升风险应对能力。

真切实练砺精兵-作者.jpg

一、海外业务信息系统简介和演练目的

  在不断完善海外业务信息系统架构的基础上,建设银行反复研究如何满足不同海外机构所在国业务连续性监管要求,制定了海外业务信息系统灾备恢复目标以及灾备恢复优先级,与各海外机构签署了服务水平协议,并按协议要求基于现有条件完成了系统灾备环境建设,定期以系统为单位组织本地应急和灾备演练。

  然而单一系统的演练统一规划和管理不足,演练所需的IT资源也难以集约化使用,同时由于缺乏关联系统共同参与,对涉及多系统的业务功能无法进行演练,难以确保灾难场景下的应急工作的及时性、有序性和准确性。

  为实现海外灾备演练企业级管理,透过多层次的演练达到全面场景覆盖的效果,提升全面应急保障能力,2012年,建设银行信息技术管理部按照监管要求“就高原则”组织了一次总行相关业务部门、海外机构参与的桌面联合演练,有效验证了海外业务信息系统业务和技术联合的应急组织架构和应急流程。以此为基础,2013年组织了所有相关业务部门和海外分行参与的综合性实战切换灾备演练,全面验证海外灾备环境的整体可用性,进一步提高应急过程中真实切换操作的熟练度,确保流程中不同岗位、不同部门以及总分行间应急操作的连贯性。

二、计划周密,准备充分

  此次灾备实战切换演练涉及14套信息系统,8个总行部门、14家海外机构和总行下属的多个中心。涉及的系统多、部门多,业务关系、应用关系复杂,又是真实的切换演练,技术难度大,具有较高的风险。为确保万无一失,信息技术管理部专门成立了演练筹备组,遵照各项制度和规范,克服各参演机构间时差、语言、文化、沟通等方面的差异,并详细分析了各国监管机构的监管要求,梳理了海外信息系统演练以往存在的问题,通过制定详细的工作推进计划表,建立工作情况跟进的周报机制,紧张有序地开展演练的准备工作。

  1.建立全面的灾难恢复组织架构

  建设银行按照监管要求,结合自身组织特点,制定了全面的演练灾难恢复组织架构,设定为以下三个层次。

  决策层:决策层设置领导组,由总行行长、首席风险官、相关各部门总经理组成,负责灾难恢复的决策。

  指挥层:指挥层设置指挥组,由相关各部门分管灾难恢复的部门领导组成,负责灾难恢复的直接指挥处置工作。

  执行层:执行层设有技术执行组、评估组、业务支持组、后勤保障组、传媒组、第三方支持组等功能组。这些功能组由相关的技术、业务、后勤、法律、财务、人力资源、外联等部门人员组成,执行灾难恢复指挥组所发布的具体处置指令,必要时由灾难恢复指挥组组长决定增加设立其他功能组。

  灾难恢复预案的组织架构中,任何一个角色都将配备多个人员,当首选的人员不能承担其职责时,后备人员按顺序自动接替并完成其职责。

  2.合理选择演练场景和演练形式

  通过风险分析发现楼宇级灾难虽然概率小,但其对声誉和业务的影响最大,因此本次演练选择楼宇级的灾难场景和实战切换演练形式。演练场景具体为建设银行北京数据中心B座附近发现大范围地陷,可能影响到数据中心的建筑结构,为保证海外业务的正常运营,将海外业务信息系统切换到建设银行长安中心机房和上海外高桥灾备中心运行。演练通过模拟突发灾难事件场景,采用现场、视频会议和电话会议相结合的沟通方式,各单位参演人员根据应急响应和恢复流程中的指挥协调组的指令,依据计划对海外业务信息系统的14套应用系统进行了实际系统切换和业务验证的操作,以验证灾难恢复行动和预案的有效性。

  3.深入分析演练风险

  鉴于实战切换演练涉及对生产和灾备环境的大量真实操作,因此全面细致的风险分析是必不可少的。针对本次演练,建行从操作风险、数据风险、网络风险、时间控制风险、系统关联性风险等多个角度进行了深入地分析,发现了9处风险,并从管理和技术两个层面给出了着实有效的应对措施,确保了演练的成功。同时,在演练过程中识别了6处风险,为今后演练的组织和灾备环境的改进提供了经验。

  4.合理设置演练窗口并选择业务测试案例

  鉴于14家参演机构地理位置较分散且时区差异较大,所有海外机构均为异地参演,为尽可能减少对外业务影响,降低演练过程中的沟通复杂度,合理设置演练窗口、选择业务测试案例和最小化演练耗时都是确保演练成功的关键要素。建设银行将演练时段选择在各海外机构网点非营业时间段,合理调整生产跑批时间,为演练和演练突发应急争取了最大可用窗口。同时,精简、优化业务测试案例,合理安排演练过程,仅建设银行亚洲、新加坡分行、建设银行伦敦、纽约分行四家海外机构进行了登陆、查询、交易和批量业务验证等全流程业务测试案例的验证,其他参演机构仅进行登陆验证,最小化演练全流程的耗时。

  5.准备有效演练过程控制手段

  通过紧张有序的准备工作,在《中国建设银行总行端海外业务信息系统灾难恢复专项预案》的基础上,演练筹备组还制定了《中国建设银行总行端海外业务信息系统实战切换演练方案》、《总行端海外业务信息系统灾备实战切换演练协同控制计划表》、《总行端海外业务信息系统灾备业务测试案例》、《总行端海外业务信息系统灾备演练业务终端操作手册》等文档,为演练的顺利开展提供了标准化依据。在演练过程中通过灾难恢复过程总控图对演练过程进行跟进,同时还采用任务跟踪系统,对演练进展情况进行在线的同步更新,确保相关人员对演练进度的把握,成功地实施了有效的演练过程控制。

  6.领导层高度重视,保障演练资源可用

  演练受到领导层高度重视,多次召开准备会,分析海外业务信息系统整体建设情况、演练准备情况,统一思想并获取了各参演部门相关资源。同时,技术部门内部通过成立演练筹备组,跟进灾备建设和演练情况,组织召开演练方案评审会,开展技术层面的桌面演练,及时发现和处理准备阶段的一切问题。

三、协同演练,严控风险

  14套海外业务信息系统的技术环境复杂,灾备切换涉及16个国家或地区的22个行内机构协同配合,联合演练全过程51个主线任务并行控制,整个演练过程时间逾11小时,存在诸多技术与非技术层面管控风险,经过缜密的方案分析与准确的任务执行,顺利完成灾备演练所有工作。

  1.技术层面管控的实施

  由于生产环境与灾备环境类似,业务或技术人员容易将生产环境当做灾备环境进行误操作,因此在演练过程中停止生产环境对外的业务服务,并且为所有参演机构操作人员提供标准的用户操作手册,统一参演机构灾备验证操作流程和规范。

  为保证生产数据不受任何不良影响,在演练前对生产环境数据进行备份,并提前梳理生产中心与灾备中心之间的网络连通性,明确访问关系与权限,明确参演系统客户端本地不存储数据,规避以客户端作为通道可能导致的数据风险。在正式演练过程中进行两中心间的网络白名单控制,从而从数据通路根源上保护好所有参演系统的生产数据,隔离演练潜在事故影响。

  由于参演生产系统与非参演生产系统处在同一个网络环境内,为避免相关的生产/灾备网络配置调整影响到其他系统的正常运行,演练之前参照国内相关业务系统灾备演练的网络控制方案,制定了网络调整应急回退操作步骤,并由每个参演系统经理与开发部门共同复合确认网络控制策略,确保将网络风险的影响降至最低。

  切换演练前部分原有系统做过灾备演练,部分新建灾备环境的系统未进行过整体联合演练,在灾备环境之间所有参演系统的关联性若存在问题,将耗费较多时间寻找解决方法,使全业务流程验证无法通过,甚至导致演练失败,故在正式演练前进行技术联调测试,统一验证系统间关联性、整体切换步骤和技术验证方案、灾备环境的多系统网络连通性。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章