• 快捷搜索
  • 全站搜索

大型银行数据中心一体化运维管理实践

2016-07-18 16:48:27作者:中国农业银行股份有限公司数据中心 张家文编辑:金融咨询网
在当前金融需求极度旺盛,云计算、大数据等新兴技术不断涌现的新形势下,保障数据中心安全生产运行,已不只是科技部门内部的技术问题,而应该从全行战略层面审视,建立从战略到战术,再到执行层面上的一体化管理体系,夯实运维基础,实现安全生产长治久安。

随着信息技术与银行业务的深度融合,信息系统安全稳定运行牵动着每个人的神经。金融需求越旺盛、银行业务发展越快,数据中心运行异常的损失和后果就越严重。近年来,各银行对数据中心投入巨大,从人力、资源和技术储备上向科技倾斜,然而,数据中心的稳定性始终难以令人放心,业内重大安全事故屡次发生。在当前金融需求极度旺盛,云计算、大数据等新兴技术不断涌现的新形势下,保障数据中心安全生产运行,已不只是科技部门内部的技术问题,而应该从全行战略层面审视,建立从战略到战术,再到执行层面上的一体化管理体系,夯实运维基础,实现安全生产长治久安。

一、面临的问题和挑战

  国内大型商业银行的信息系统每天承载的交易量超2亿笔,峰值近2.7亿笔,电子银行交易占比近80%,并高速攀升,系统稳定运行的压力巨大,数据中心生产运行面临多重典型问题和挑战。

  1.典型问题

  一是架构复杂。当前国内大型商业银行基本上都实现了全国数据大集中,在信息系统架构上实现了“全国一网、一网打尽”。信息系统的软硬件环境涉及的技术平台复杂,厂商众多,系统的I/O瓶颈难以消除,扩展性差。由于缺少跨越多平台的集成解决方案,数据中心安全生产运行在技术层面受到制约。
  
  二是整体性能难以保障。除了核心系统部署在主机平台外,还有几百个外围系统部署在开放平台环境,基础软件平台和数据库系统的多样性客观存在。异构的数据库、Java层、消息层和Web层很难整体调优。特别是近年来虚拟化技术的广泛应用,在虚拟环境下,整体性能不高且不可预测。

  三是整体可用性难以保障。就像神话中的“阿喀琉斯之踵”,虽然生产系统在设计之初即考虑了各个环节的架构冗余,但是由于异构环境存在,单点风险依然不能根除。基础环境、系统、网络、应用等任何一个环节的不稳定,最终都可能对整体可用性造成影响。

  四是运维管理复杂。数据中心安全生产水平,依赖于开发、测试、运行以及业务、风险管理、支持保障等多个部门的整体表现。在实际运维工作中,运维职能难以清晰界定,信息系统问题的诊断、解决过程复杂,不同厂商产品升级与补丁流程不同,客观上增加了运维管理的难度。

  2.面临的挑战

  IT运行的基本目标是稳定和安全,核心目的是为业务服务。在银行业务蓬勃发展的新时代,银行的数据中心迎来多重挑战。

  一是自身运维保障水平的挑战。系统异构现状下,业务连续性和高可用性建设是数据中心的运维保障重点。潜在运行问题分析和规避能力、问题快速定位和解决能力等,都是对数据中心运维保障水平的极大考验。

  二是来自业务的挑战。银行业务竞争日益激烈,客户对银行服务中断和性能问题容忍度较低:业务需求已由单纯的“IT实现和支撑”,转变为“灵活支持业务发展”,“平稳应对业务量持续及爆发式增长”,“用户体验透明、可掌控”等全方位需求。新形势下,如何实现业务需求与IT管理量化对接,是对数据中心的严峻挑战。

  三是IT基础架构和基础设施的调整。数据中心建设耗费巨大,且设施空间难以扩展。数据中心基础架构复杂度不断增长,服务器数量急剧增加,机房能耗快速攀升,对数据中心机房空间优化和基础设施容量扩展能力,带来了巨大挑战。

  四是IT变革和创新的挑战。近年来,IT变更和创新持续推进,虚拟化、云计算、大数据等新技术不断涌现,集中化、标准化、绿色环保、智能数据中心概念相继提出,既是数据中心前进的方向,也是严峻挑战。

二、基于一体化运行的运维管理实践策略建议

  商业银行业务目标是提供愉悦的客户体验,包含服务、产品、流程和IT自身。农业银行数据中心在全行“科技先行”发展战略的指引下,始终坚持以服务业务发展为宗旨,以安全生产为第一要务,按照一体化生产运行的思路,全面推行运行精细化管理,提升安全生产水平。基于农业银行多年实践经验,参照业界经验,建议如下。

  1.机构设置

  商业银行信息科技工作包含科技规划、开发、测试、运行等环节,各环节环环相扣,相互促进又相互制约。目前,业界通行的做法是“一部两中心”的管理架构和“两地三中心”的灾备架构。农业银行做法和业界通行做法类似。

  (1)“一部两中心”的管理架构

  IT条线内按照统筹规划、软件开发、生产运行职能设立相互独立的专业部门,形成分工合理、职责明确、相互制衡、报告关系清晰的组织结构。统筹规划部门主要负责中长期科技发展战略规划;制订科技项目建设计划和资源配置计划;构建信息科技制度体系;统筹协调科技条线内各部门工作;指挥重大项目投产和突发事件处置;承担安全管理与质量管控。软件开发部门主要负责全行信息系统应用软件的研发,同时承担应用系统运维的二线支持工作。生产运行部门主要承担全行信息系统安全生产运行职能,实施日常信息系统运行维护和管理,对全行日常生产、应急和灾备实施一体化管理。

  (2)“两地三中心”的灾备架构

  为满足“重要业务恢复时间目标(RTO)不得大于4小时,重要业务恢复点目标(RP0)不得大于半小时”的监管要求,总行确立“两地三中心”的灾备模式,即数据中心、同城灾备中心和异地灾备中心(如图1所示)。对于数据中心园区级的灾难事件,采用同城灾备解决方案,实现60分钟内灾备恢复。目前,农业银行同城灾备中心正在建设中,预计2016年投入使用。针对发生概率低、故障影响范围大的区域性灾难事件,采用异地灾备解决方案,实现2小时内灾备恢复。

2-1.jpg

  2.制度规范建设

  生产运行工作具有繁琐、重复、技术性强的典型特征,牵涉面广,风险度高。对技术工作和技术人员的管控仅靠“行政式管理”往往事倍功半,顾此失彼。正所谓“三分技术、七分管理”。只有建立起一套权责清晰、分工明确、规制适度、流程顺畅的制度规范,才能把管理者从繁琐的运维事项中解放出来,也使各级技术人员明确工作定位和行动方向,有章可循,有据可依。根据管理的层级和颗粒度的不同,运行管理规范分为制度、流程和操作规范三部分(如图2所示)。

2-2.jpg

  (1)制度体系

  在建立运行制度体系时,宜遵从整体规划、急用先行的原则,首先建立统一的安全生产管理办法,作为纲领性制度,明确安全生产相关各方的职责分工。以此为基础,逐步构建全行生产运行制度框架体系,全面覆盖日常运行、应急管理和灾备管理,优先制定日常值班、事件、问题、变更、应急、供应商等管理制度,还应建立基础环境、生产网络、系统维护、运行操作、数据安全、生产调度等各专业领域实施细则,形成比较完善的生产运行规章制度体系。

  (2)流程标准

  业界成熟的经验是参照ITIL的思路,引进ISO20000等IT服务管理国际标准,实现了人员、流程和技术的统一管理。多家银行借鉴IS020000标准体系方法,构建运维管理流程,从单纯技术运维,向注重为业务经营管理高效服务转变,从而建立起主动的、以预防为主的生产运行管理体系,全面提升风险防控水平。值得注意的是,银行在引进IS020000等国际标准时,切忌简单地“拿来”套用,必须结合本行实际,因地制宜,避免“水土不服”。分行条件不成熟时,也可先引进核心流程。通过标准流程建设,实现日常每项工作有流程、留痕迹、可审计,生产运行工作真正由经验型逐步向制度化、规范化、标准化转变。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章