
- 快捷搜索
- 全站搜索
从信息系统生命周期理论出发,银行信息系统大致分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护。这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。
一、IT运维监控指标体系研究的背景和意义
1.业务发展的客观需要
为了充分发挥运维监控的预警作用,逐步提升各类运维监控指标的覆盖率和完备率,我们需要建立一套系统、规范、面向业务服务的运维监控指标体系。在管理层面,该指标体系旨在让企业管理者花更多的时间在决策上,而不是用于了解复杂、繁琐的IT细节上;以仪表盘展现的方式,从服务定义、服务水平管理、服务监控、服务诊断的角度,让管理者一目了然;既满足企业要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。
在技术层面,该体系既可以丰富开发新业务系统时的非业务功能需求,使开发团队在系统设计阶段,就把以后运维阶段需要关注的监控指标内嵌到应用系统中,起到“未雨绸缪”的作用;又可以在老系统改造过程中增加指标的监控功能,起到“亡羊补牢”的效果;同时,该指标体系对于运维团队全面、有效地部署和配置各类运维工具也起到“有的放矢”的指导作用。
2. 监管导向
根据银监会《商业银行数据中心监管指引》第二十六条第八款“应集中监控重要信息系统和通信网络运行状态。采用监控管理工具,实时监控重要信息系统和通信网络的运行状况,通过监测、采集、分析和调优,提升生产系统运行的可靠性、稳定性和可用性。监控记录应满足故障定位、诊断及事后审计等要求。”为了满足上述要求,迫切需要建立一套切实可行的运维监控指标体系来指导监控和分析工作,促进运维管理工作的系统化和规范化,降低运维风险。
二、IT运维监控指标体系的研究
IT统一运维监控指标体系是一套面向业务服务、层次化、可量化的监控指标体系。该体系是以ITIL为理论基础,实现IT管理与业务服务的融合。从业务的视角来重新定位企业的IT系统,确保IT服务可管理、可测量。把IT管理与业务管理的表现相关联,使双方利益一致,提高客户满意度。以ITIL的流程框架为中心,通过与业务流程管理(BPM)整合,实现ITIL服务提交和服务支持的流程。以可视化方式为管理者提供一览式的IT服务状况,简化对IT系统的理解。
在设计该体系过程中,通过层次分析法(AHP)将监控要素(包括网络、主机、中间件、数据库、应用等)划分为相互联系的各个单元(颗粒度根据业务需要和实际环境而定),之后依据专家经验比较客观地将这些单元进行有效结合,根据上下层次之间的隶属关系以及同一层次内两两元素之间的依赖关系进行定量描述,构建出一个关系矩阵。最后通过对所有层次之间总排序计算所有元素的相对权重并进行总排序。该体系分为四个层次:从上至下分别是应用服务层、系统资源层、网络服务层和基础设施层,全面覆盖应用系统、数据库、中间件、服务器、存储、网络和动力环境各个领域。确保任何一个领域出现风险隐患时,运维人员均可以主动、及时地发现、预警、分析和处置,把风险控制在萌芽状态,保证业务连续性。
该指标体系在应用服务层面上可以分为交易进程类、交易数据类、批处理运行类和交易日志和报文类、错误信息类,能够实时反映交易应用进程的运行状态。其中交易进程类指标包括交易队列的使用情况、资源消耗情况;交易数据类指标包括交易笔数,交易并交易笔数、交易平均响应时间、在线用户数;与交易相关文件类指标包括交易报文数量、交易日志中的错误信息等。
在系统资源层面可以分为数据库类、中间件、操作系统类和存储四大类。其中数据库类的指标可以分别反映服务器的运行状态、实例的运行状态、会话数、锁资源和监听器的运行状态。中间件类根据不同的使用特性,如业务中间件、消息中间件等,细分为WAS、Weblogic和MQ三种。操作系统类可以按照使用环境分为Windows、Linux和Unix三种,客观反映各种主流操作系统的运行状态。存储系统类可分为光纤交换机、光纤交换机端口、存储系统、XP存储系统和光纤链路,客观反映存储系统端到端的运行状况。
在网络层面按照管理特性可分为网络或安全设备的处理器、内存、风扇、温度、电源、系统、设备端口、运行协议等不同纬度客观反映网络环境的运行情况和运行质量。
在机房基础设施层面可以按照管理设备种类分为电量仪、UPS、空调等,反映机房基础设施的使用情况和运行质量。
上述领域的监控指标通过标准化的数据采集接口收集整理、分类汇总和关联分析,进行IT统一运维监控管理,实现了事件管理、性能管理、告警管理、故障分析等风险处置功能。同时还能提高运维管理工作(跑批、备份、版本、维保、值班、资产等)的日常监督和及时提醒功能(见图1)。
三、IT统一运维监控指标体系的构建方法
为了促进监控指标有效落地,充分发挥监控预警作用,需开发和运维团队积极配合,围绕逐步优化和完善指标体系开展工作,从指标梳理、指标设置、指标权重计算、指标评估、体系建立五个阶段,形成持续优化的闭环工作过程。
1.指标的梳理
各开发和运维团队需要根据业务特点和系统情况,结合实际运维工作需要,采用专家经验法,以调查问卷的方式选取相应的监控指标形成特定的监控指标集,其中应至少包含表1所列的基本信息。
ITIL是一套方法论,能为IT服务提供良好的指导思想,将工作中习惯的以技术为
农业银行高度重视信息化建设,近些年特别强化了安全生产工作,加强了IT运维