• 快捷搜索
  • 全站搜索

银行信息系统高效运维之道

2015-01-19 17:24:05作者:中国人民银行厦门市中心支行 李永伍编辑:金融咨询网
从近几年发生的重大生产事件来看,运维效率不高是引发业务长时间中断的罪魁祸首。要解决这一问题,必须从运维体制和流程入手,在各个环节同步提升IT运维效率。

随着银行信息化水平的提升,IT系统越来越复杂,如何维护好这些庞大的系统,保障稳定运行成为IT部门最重要的任务。虽然各银行都投入了巨大的人力物力建设运维机构,但从近几年发生的重大生产事件来看,运维效率不高是引发业务长时间中断的罪魁祸首。要解决这一问题,必须从运维体制和流程入手,在各个环节同步提升IT运维效率。

一、影响运维效率的因素

        首先,各银行的数据中心承担着IT系统运维工作,一般会根据技术分工划分部室,如平台部、网络部、运行部等。这种方式虽然有助于培养专业人才,但在故障排除时,可能无法形成有效的协同,当程序问题、系统问题、网络问题交织在一起时,会出现相互推诿的情况,从而影响解决问题的效率。

        其次,运维人员大多处在被动的“救火”状态,一旦发生故障,运维人员除了面对用户的责难外,还要承受来自领导的压力。因此,运维人员流动性高,无法很好地做到知识积累,工作效率低也在所难免。从多年的经验看,很多运维人员因为看不到职业前景或感觉不受重视而转到其他岗位,特别是中坚力量的离开,会造成运维效率在相当长一段时间内出现波动。

        最后,不同类型的系统采用统一的运维管理模式也是导致工作低效的一个原因。银行除了交易类系统外,还有大量管理分析类系统,对这两类系统的运维关注点差异很大。比如,交易系统对于CPU、内存使用率高这类告警要特别关注,而对于某些管理类系统来说,这种情况属正常现象。但是多数银行没有针对管理分析类系统特性分别制定运维流程,在报警设置、日常监控、故障处理方式上比照交易系统,导致运维人员疲于处理很多无用的报警和工作,一定程度上造成了人力的浪费。

        此外,“摸着石头过河”的故障处理方式依然是主流,应急方案过于理想化,缺乏实际演练,运维平台“管理目的大于操作目的”等也会严重影响运维效率。

二、提升IT运维效率的切入点

        提升运维效率的关键,就是要“人”和“事”随着系统的运维特点而变化。在总体运维目标下,优化不必要的管理流程,创建灵活的运维模式,让每个运维人员能专心地做属于自己的事,做对系统运行真正有用的事,并利用先进的运维工具,从各方面推进运维效率提升。

        1.人员统一管理,合理分工

        需要打破现在运维多级、多部门管理模式,明确所有运维人员纳入统一管理,并保持稳定。根据运维人员掌握的知识细化分工,高、中、低人才各司其职,减少人力浪费和学习成本,使有限的运维力量得到合理利用。合理的分工也方便对运行的各环节进行评估,或针对不同岗位提供相应的技能培训,提高运维人员的积极性和工作效率。

        2.增强运维人员的主动性

        通过建立充满关怀而不是责难的工作氛围,真诚对待运维人员,保持平等、公正、开放的沟通,激发运维人员的主动工作意识。首先,要避免运维工作繁忙且不易受到重视的现象;其次,使运维人员在项目开发和测试过程中有话语权,尽早提出保障高效运维的非功能建议;最后,建立相应的奖惩制度,激励运维人员主动学习、思考,对运维流程和系统缺陷提出建议,使运维人员真正将系统稳定运行看成是自己的事隋,从根本上提高工作效率。

        3.差别化运维管理方式

        差别化运维管理就是在保障系统运行目标的前提下,根据系统特性合理安排运维工作流程。这项工作需要多方面协作,如在系统报警设置上根据应用特点和影响性设置报警阈值;各系统运行报告内容不强求一致,并经常梳理,如果干系人不再关注就应该取消或变更;改变统一的考核方式,以运行目标为驱动,各系统运维不再拘泥于具体形式,可以按照系统特点安排工作流程,用最合理的人力配置满足运维需要。

        4.应急流程的优化

        应急是运维中最重要的工作之一,应急效率的高低直接影响运维质量。可以通过完善应急流程中的工作职责,建立统一的指挥机制,对应急中可能涉及的部门,如系统部、网络部、运行部、项目组统一调度,明确指挥权。应急时各部门要简化流程,以便运维人员能够快速得到授权。另外,要加强非工作时段值班人员的配备和能力,能够按照应急手册或应急人员的指令准确操作,在故障发生的第一时间完成前期检查和准备工作,为应急争取时间。

        5.运维制度的改变

        要清理、简化现有IT运维制度,从制度的适用性、可行性、效力的合法性、执行的有效性等方面进行审核,对不符合实际工作的管理制度进行修订和完善,彻底改变传统“人管人”的工作方式,形成“以制度带人,以制度带动工作”的模式。如建立高效的事件流转机制,事件单、问题单、变更单、操作单统一管理,使运维事项流转中的资源清晰、过程明确、操作可查。同时,通过生产问题分析和运维人员的反馈定期修订运维制度,让制度真正成为提升运维效率的推手,而不是束缚运维的“紧箍咒”。

        6.优化运维工具平台

        要改变各运维工具平台关联度不高的问题,打造集系统监控、知识查询、日常操作、配置管理于一体的运维平台,让运维的各个环节有机结合。运维人员可以通过统一入口登录平台(包括现场和远程),完成日常监控和巡检。当发生故障时,方便地从知识库中调取操作方案,申请授权后提交到操作平台执行,执行过程被自动记录,之后完善到配置库和知识库,可以大大降低运维人员的工作量,使之专注于故障分析和处理本身,提升操作效率。

三、应用虚拟化技术推动高效运维

        近几年,虚拟化技术在银行IT系统中的应用越来越广泛。虚拟化技术与生俱来的特点能够简化运维工作,如虚拟架构可以减少硬件数量,减少系统重建和应用部署时间,统一的管理界面使运维人员的工作更加轻松。但是,虚拟化也带来很多问题,如由于软硬件之间的联系被弱化,服务器环境变得更加复杂,作业流程难以监控等。因此,IT部门要扬长避短,完善虚拟化环境下的运维体系,以虚拟化推动运维效率的提升。

        在运维体系中,一方面要进行统一的资源配置和整合,通过技术手段对虚拟系统实施全面管理,自动掌握虚拟环境的结构,使物理和虚拟环境可视化,从而对复杂的虚拟化环境进行高效管理;另一方面,将虚拟系统按照业务单位进行组合,确定服务等级,设置合理的运维目标,并以此作为资源投入和运维方式的依据。

(文章来源:《中国金融电脑》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章