• 快捷搜索
  • 全站搜索

信息系统连续性运行风险及应对策略

2015-08-17 16:51:12作者:中国工商银行股份有限公司数据中心(上海) 徐泽中编辑:金融咨询网 徐仲雅
随着银行业务发展对信息系统的依赖程度越来越高,数据集中和运行处理的复杂性引发全行业务风险也越来越高,那么采取有效的预防和保护性措施势在必行。

随着银行业务发展对信息系统的依赖程度越来越高,信息技术的影响力已经渗透到银行业务方方面面,然而数据集中和运行处理的复杂性引发全行业务风险也越来越高。主要为:一是风险发生时对业务影响较大,生产事件可能是全局性、全行业性的;二是风险发生更具有不确定性,环境破坏、技术缺陷和管理缺失都可能引发生产事件。笔者对数据集中下信息系统面临的威胁以及其自身的脆弱性进行分析,提出了通过信息系统高可用性建设、应急管理等预防和保护性措施来防范信息系统运行风险的发生。

一、信息系统运行风险

  信息系统运行风险是指信息系统运行过程中某种特定的威胁利用信息系统资产的一种或一组薄弱点,致信息系统无法提供服务的潜在可能性。信息系统资产、威胁和脆弱性是信息系统运行风险管理最基本的三个要素。

  所谓信息系统资产(以下简称“资产”)是指对信息系统运行有价值的所有资源的总称,资产以多种形式存在,有无形的、有形的,有外部的、内部的,有硬件、软件,有文档、代码,也有流程。根据数据集中下信息系统运行存在所需的资源,按照资产依赖度,可将数据集中下资产划分为环境、机房、硬件、软件、应用和流程等6 个层级(如图1 所示)。资产首先表现于信息系统存在于一定的环境,包括自然环境、社会环境,环境是信息系统存在的基础;机房提供了信息系统运行的特定空间,维持机房运行,包括电力、空调设施等;资产最直接体现在信息系统运行的硬件设备, 系统的运行需要特定的硬件设备;计算机系统软件和应用软件有效地进行数据集中管理和处理,是信息系统运行的核心资产;管理流程和运行规范是数据集中下的信息系统有序运行的保障,流程缺失将无法正常提供业务服务。

图片13.png

  脆弱性是一个或多个资产弱点的总称。每类资产均有其特有的脆弱性,比如环境的易破坏性表现于容易受到地震、水灾、污染的破坏,设备老化性表现于设备老化后无法正常工作,需要及时更换。

  威胁是一种对信息系统资产构成潜在破坏的可能性因素,造成威胁的因素分为人为因素和环境因素(本文主要研究环境因素的威胁)。任何一类资产所受到的威胁是不同的,同时不同层级的资产受到的威胁又是向上递延的,环境的灾害直接导致基础设施、硬件故障,有可能造成应用系统无法正行运行。基于资产层级的威胁分类如表1 所示。

图片14.jpg

        资产脆弱性和资产面对的威胁是客观存在的,决定了数据集中下信息系统运行风险是客观存在的,无法避免。高可用建设和应急管理是有效降低风险发生、控制风险对业务影响的重要手段。其中,信息系统高可用性建设可降低利用资产脆弱性导致重大生产事件发生的概率;针对在信息系统重大生产事件发生后通过人员组织、事件影响控制、按照应急预案快速恢复业务等过程的管理,属于应急管理范畴。应急管理是一种保护性风险控制措施。

二、信息系统高可用性架构

  信息系统高可用性架构是有效控制信息系统运行风险的预防性措施之一。通过高可用性架构能够有效降低信息系统运行过程的脆弱性,提高系统的强壮性以及应对风险能力。数据大集中下信息系统高可用性架构主要包括如下几个方面(如图2 所示)。

图片5.jpg

        1.灾备系统

  灾备系统主要应对自然环境因素造成信息系统无法运行的风险。按照灾备系统建设的区域,灾备系统分为同城灾备和异地灾备。异地灾备在不同的地域建立与生产环境基本一致的异地灾备系统,在生产地域发生灾难后,异地灾备接替主生产系统运行。同城灾备则主要应对当一地域发生局部灾难而影响信息系统正常运行的风险,同城灾备建设一般在同一城市不同地理位置(一般在数十公里之内),建立与生产环境基本一致的灾备系统。灾备系统在实现生产系统接管上有两种模式可以选择:一是Active—standby(As)主从备份方式,即灾备环境信息系统处在standby状态,当生产环境发生灾难后,立即启用灾备备份系统,实现业务快速接管,由于切换需要耗用一定时间,对业务有一定影响;二是Active—Active(AA)双活方式,即所有生产交易处理可同时运作在生产环境和同城灾备环境,任何一处发生灾难后另一处即可对业务实现透明无缝接管,对业务影响较小,但是运营成本相对高,要求更为先进的技术手段。一般情况下异地灾备系统采用AS模式下,同城灾备系统采用AA模式。同城灾备和异地灾备优缺点比较如表2所示。

图片161.jpg

        2. 交易渠道多点接入

  交易渠道多点接入可防范环境、机房以及设备异常造成交易渠道无法提供服务的风险。交易渠道多点接入在多地分别独立建立一套或多套功能相同的应用系统,提供了交易通信或处理的多个渠道。不同的交易渠道具备独立的设备、网络、数据库,提供对等的服务,各系统相互独立,并独立承担业务处理,几乎不存在数据的交互和同步,当任何一地(或多地)发生灾难后,其他渠道能无缝接管进行处理。一般情况下,交易渠道多点接入方式适用于渠道交易处理应用系统,比如电话银行、网上银行、黄金前置系统、金卡前置系统等。目前应用系统采用B/S 架构为实现多点接入提供基础架构。

  3. 本地高可用性

  本地高可用性方式主要包括以下几种。

  (1)传统的N+1 备份方式是最基本、原始的备份形式,一定意义上不属于高可用性范畴。

  (2)负载均衡。该方式由多台服务器以对称的方式组成一个服务器集合,在应用的一个环境上每台服务器都具有等价的地位。目前,负载均衡主要通过网络技术将客户交易均匀地分配到服务器集合中的一台服务器。应用的B/S 结构为实现负载均衡提供了基础架构。

  (3)数据库高可用性。RAC 和Dataguard 是Oracle数据库常见的高可用性方式。RAC 通过多个数据库实例共享访问数据,实现数据库实例的高可用性,提高了数据管理和处理的可伸缩能力。Dataguard 提供了一种Active Standby 方式的高可用性,在主设备异常情况下通过快速切换实现数据库高可用性。

  (4)数据高可用性。数据高可用性的目的是保障信息的完整性和一致性。数据高可用性主要可通过磁盘机数据复制技术得以实现。磁盘机数据复制技术包括数据快照技术、数据同步复制技术和数据异步复制技术。数据高可用性通常与异地灾备、同城灾备和本地高可用性对应的应用架构同步建设,共同实现系统高可用。

  4. 应用高可用性

  应用高可用性需要从软件设计着手考虑,包括以下5 个方面。

  (1)多进程处理。多进程处理提供交易并发处理的可能,同时可以有效利用设备资源。

  (2)应用容错性。主要表现在对数据输入进行有效控制和业务数据容错处理。

  (3)异步处理。在不同信息系统需要进行数据交互时或者与其他单位交互处理交易时可有效防止对方不正常引发进程停滞处理的风险。

  (4)资源控制。可以通过应用系统自身控制交易的并发,提高系统运行可靠性。

  (5)批量自动化。包括批量中断后自动重提、在断点自动续处理。

三、信息系统应急管理

  应急管理是为了降低突发灾难性事件的危害,基于对造成突发事件的原因、突发事件发生和发展过程以及所产生的负面影响的科学分析,有效集成各方面的资源,对突发事件进行有效地应对、控制和处理的一整套理论、方法和技术体系。应急管理是应对信息系统运行风险最重要的保护性措施之一,是风险爆发后确保系统尽快提供服务的最后一道防控措施。应急管理主要工作包括应急组织架构建设、应急预案(包括应急流程、恢复手册等)编制、应急演练实施和应急现场管理等5 个方面,其目标就是确保应急现场有序、可控(如图3 所示)。

图片1.jpg

  1. 应急组织架构

  应急组织架构建设核心是人,应急组织架构需要明确由哪些人参与应急,参与人的角色、职责。图4 是一种典型的应急组织架构。

图片2.jpg

  其中,决策、领导组负责信息系统应急管理的规划、制定,负责信息系统应急的启动和终止、承担应急实施过程中总体协调;技术恢复小组下设应用恢复小组、系统(包括操作系统、数据库、中间件等)恢复小组、硬件恢复小组、网络恢复小组、环境恢复小组等,按照信息系统连续性计划恢复方案实施具体的处理;技术支持小组在应急处理过程提供技术支持(包括远程技术支持)和现场问题诊断分析,提供必要的解决方案等;业务恢复组负责组织业务人员进行账务修复工作,负责数据正确性的确认和账务正确性的验证;运行操作组承担信息系统恢复后相应的运行操作和监控;应急管理组承担日常应急管理的工作(包括应急组织架构人员调整的维护、组织应急预案审核和保管等)。

  2.应急预案

  应急预案是指涉及风险评估、应急策略、信息系统恢复和重建、应急资源、人员分工等方面的行动计划和操作指引,包括应急流程、应急场景、应急技术手册等方面。应急预案规划必须满足尽快恢复信息系统的原则,针对信息系统面对的威胁,至少要建立以下类别的应急预案。

  (1)应对环境破坏应急预案;

  (2)基础环境应急预案(机房、电力);

  (3)网络应急预案(线路故障、路由);

  (4)硬件应急预案(部件损坏、设备失效等);

  (5)操作系统应急预案;

  (6)数据库管理应急预案;

  (7)中间件应急预案;

  (8)主备机切换应急预案;

  (9)各类应用系统应急预案(包括账务差错、账务异常、账务控制等);

  (10)安全应急预案(指攻击、病毒、数据泄密);

  (11)管理流程失控应急预案。

  应急场景针对每类细化后的威胁,按照可能发生的情景分别建立相应的应对措施,每类场景基本要求有:分工和责任,业务影响范围,恢复时间目标RTO,恢复点目标RPO,启动条件,应急措施,所需资源(设备、人员、支持公司),恢复后验证方法。

  3.应急演练

  应急演练是检验、评估应急预案(流程、场景设置、手册)的重要手段,通过演练暴露信息系统连续性运作基础架构和应急预案的缺陷,发现预案可用资源情况,提高应急处理人员的熟练程度和技术水平,加强各层级应急之间的协作,提高整体应急反应能力。在实施信息系统应急演练时要充分考虑当前基础设施和技术、人员、时间,尽可能采用真实事件中使用的程序和方法。应急演练按形式可以分为桌面演练、走查、模拟演练、活动测试、全面测试等。根据演练的内容,信息系统连续性演练可以分为单项演练、关联演练和系统整体演练。其中,单项演练针对信息系统某个系统的演练;关联演练是对于关联信息系统进行的涉及多个应用系统的演练;系统整体演练主要针对同城灾备或者异地灾备进行的演练。

  4.现场应急

  现场应急是应急管理的核心,在生产环境发生重大生产事件后按照应急预案进行有序处理和快速恢复。现场应急主要包括监测、报告、响应、恢复和评估5 个环节。(1)监测是现场应急的出发点,通过监测,及时发现可能发生的突发事件或已经发生的突发事件。

  (2)报告流程必须准确明确信息的接受者,包括信息系统连续性管理领导决策组相关成员,报告流程同时还包括对上级单位、监管机构甚至媒体的通报流程,报告要素包含现象、发生时间、影响、损失情况、初步原因判断等,要求信息传递及时、准确、无障碍,通过决策尽早启动信息系统连续性计划,将突发事件造成的损失减小到最低程度。

  (3)响应主要是指应急决策领导组相关成员在接到事件报告后决策应急流程,包括事件评估、是否启用应急、根据事态发展选择更大范围的应急处理、启用更高级级别的应急组织架构以及各种资源调度(包括外部资源)。

  (4)恢复流程控制各恢复小组按照信息系统连续性计划实施恢复工作,包括各类信息系统恢复总体流程、业务恢复流程、行政恢复流程,系统恢复小组在信息系统恢复总体流程控制下按照恢复手册实施具体应用系统的恢复工作。

  (5)评估流程在系统恢复后针对应急过程相关工作进行全面梳理,包括评估事件发生应急处理过程、流程以及基础环境,进一步优化应急管理。

(文章来源:《中国金融电脑》杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章