• 快捷搜索
  • 全站搜索

浦发银行:全行集中式分行灾备建设实践

2014-01-08 15:24:31作者:上海浦东发展银行总行科技管理部总经理 奚力铭编辑:金融咨询网
分行灾备建设的主要困难有两点,首先是投资。因为灾备系统是投入大回报低,而灾难性又是小概率,所以要想方设法降低成本。第二是人力资源。因为分行在人员配备上要保证一线业务的维护及本地分行特色业务的开发,新的灾备建设对人力资源及技能提出了挑战。

浦发银行成立于1993年1月,1999年在上海证交所挂牌上市,目前总资产规模是3.5万亿元,下设38家分行,847个网点,全行员工超过3.5万人。在全球银行排名中居第53位,财富500强排在第460位。浦发银行科技部门设置在总行,涉及两个一级部门,分别是科技管理部门和科技开发部门。科技管理部门主要承担了合规管理、规划、标准、技术架构、安全管理、科技风险管理,以及生产系统和灾备系统的运行维护。科技开发部门,主要承担了从需求到设计到开发到测试,职责是整个银行业务系统建设。两个一级部门直接向行长室汇报,此外,在两个一级部门之上还有一个信息科技管理委员会。

        今天演讲的主题是“全行集中式的分行灾备建设”,主要谈四方面:第一是分行灾备建设的必要性,第二是主要的困难,第三是主要的特点,第四是成效。

分行灾备建设的必要性

        必要性用四个词来表示,第一个是承上启下。应该说数据集中在总行处理,业务逻辑也是在总行处理,分行看似不如以前重要,但是在我们的整个银行架构中分行的前置系统起到了一个上联总行、下联支行网点的枢纽作用,所以在整个架构中分行的前置系统如果出现问题,将会极大地影响到我们的对外服务。

        第二个必要性是天灾人祸。大家也都清楚,近期的自然灾害,2008年地震,包括海啸、洪水、台风等等,同时我们还有很多的灾害,都会直接影响到银行的网络和服务系统。

        第三是监管要求,实际上业务连续性必须得到IT的支撑,在总行也好,分行也好,需要一个IT灾难管理来支持业务连续性的发展要求。

        第四是我们自身的诉求,大集中之后我们科技上重要的投入应该说集中在总行,无论是数据中心、灾备中心都是最高等级的建设。相对而言,分行的各个配置上也存在一些不足,是我们整个系统架构中急需改进的一个环节。因此,灾备建设同样也是需要加强的一个地方。

分行灾备建设的主要困难

        分行灾备建设的主要困难归纳起来主要是两个,首先是投资上的困难。我们38个一级分行如果都建灾备的话,加起来的投入还是相当多的。作为一个上市银行,首要的任务目标是服务和回报好我们的股东,所以经济效益是我们追求的一个重点。因此在我们整个灾备建设的过程中必须想方设法节约成本,毕竟灾备系统是投入大回报低,灾难性也是一个小概率的事情,所以我们要想方设法来降低成本。

        第二个是人力资源的困难。我们现在在人员配备上都要精简,首先是要保证一线业务的维护,保证本地分行特色业务的开发。因此灾难恢复管理和灾备建设对分行科技提出了新的要求,无论是在人力资源的配置还是在技能方面都有很大的挑战。所以,我们在项目建设过程中就要充分运用总行的技术力量来解决好各方面的困难。

核心大前置灾备建设的特点

        浦发银行核心大前置灾备建设的特点,主要有这么几点。第一个是总体布局上是依托总行、全行集中。浦发银行在10年前的2003年11月完成了全行数据大集中,在2005年11月完成了灾备中心,实现了同城应用级灾备,2009年我们更是启动了“两地三中心”的建设目标,也就是要在上海构建生产中心和同城灾备中心。通过选址,我们在河北建立了异地灾备中心,经过四年的建设,目前两地三中心的架构已经完成。同城灾备中心,实现的是数据级的灾备,所有重要系统的数据会同步复制在生产中心和上海的同城灾备中心实现备份。在合肥的异地灾备中心,是通过构建应用系统,以及连接第三方和分支机构,建立专业的运维队伍,来实现应用级的灾备。

        从2010年到现在,我们建设完成了38个系统,开展了近10次灾备切换演练。2012年我们用灾备的核心系统和网银系统接管了全行的增值业务,运行一天。今年,我们用灾备资产托管系统接管了全行增值业务运行一周。应该说,整个灾备的体系、两地三中心的架构初见成效。

        我们在分行核心大前置灾备上依托总行、全行集中。主要是在分行大前置系统的布局上实施了集中的部署,部署在灾备中心,充分利用合肥灾备中心的场地和技术资源,从而降低分行对灾备机房场地和人员的投入。实现了分行前置系统的集中部署之后,对分行来说,同时也就带来了一个分行是否要建同城灾备的问题。

        第二个特点,在主要的技术上我们采用了资源共享、以一对多的方式。我们在合肥灾备中心集中部署了两台高性能的小型机作为数据机,两台机器是双机冗余的性质。当某一个分行出现灾难的时候就会启动分行的灾备前置,通过网格化来实现数据切换。由于两台数据机是冗余的配置,一台机器出现问题另外一台就会切换,从而保持分行对灾备切换的能力不受影响。两台机器也会根据我们未来业务发展的情况进行纵向、横向的扩展,以满足今后灾备的需要。

        第三个特点是在网络灾备机房这一方面是有三点两点的选择,以及有线无线的选择。所谓三点介入,我们在分行建立分行网络备份机房,通过容灾的网点,专线连接到分行的备用网络机房,再联络到合肥灾备中心。从未来发展来说这样的机房也可以作进一步的扩展,以满足分行本地应用系统的同城应用级灾备的需要。在这种模式下,网点到备份网络机房的线路是省内的通信线路,成本相对较低。这种模式比较适合容灾网点多,分行规模比较大的地方。

        第二种选择是两点介入,也就是省去了分行灾备机房,不建网络备份机房、短期投入少,但长途的线路运维成本相对会比较高,这种模式适用于小型分行和网点不多的分行。在网点比较多的基础上我们选择了4G网络,降低通信成本。也就是在两点介入的方式上,网点通过4G网络直接联络到我们合肥灾备中心,从而降低长途的通信成本,并且这种模式按流量来计费,比较符合灾备的特性。在三点的介入方式上我们也可以采用无线的方式,在网点和分行网络备份机房之间采用无线连接来进一步降低通信费用。

        第四个特点,是我们在运维职责上强调分工明确、各展所长。用一句话概括,就是在我们总行的灾备中心是负责集中的,就是部署在灾备中心数据机的硬件、存储、网络、虚拟化资源。分行来负责本地的系统运维,以及虚拟机上的内容,包括分行网络本地备份,以及操作系统、数据库系统。目的是充分发挥各自所长,满足分行运维管控的要求。在灾难发生的时候,双方进行协同配合,如果真正灾难发生的话,总行会进行网络的切换和虚机上的操作。

建设成效和未来的工作

        最后介绍一下建设成效和未来的工作。从2002年开始到2012年年底我们建成了7个分行的灾备。2013年我们做了一个灾备演练,应该说整个演练非常成功,接管的7家分行业务的处理,从过程及效果来看,充分验证了整个系统网络、组织架构、预案、流程的有效性。在试点的基础上,到2013年底我们已经完成了全行37家境内一级分行的推广工作,实现了从总行灾备向分行灾备的跨越。后续,我们也正在探索建立分行灾备的资源池,目的是为分行建设灾备提供服务,是进一步扩大分行重要性和灾备范围的一个平台。

        以上就是我向大家报告的内容。谢谢!

(本文系作者在2013中国金融科技大会的演讲内容,未经本人确认。)
 

扫码即可手机
阅读转发此文

本文评论

相关文章