• 快捷搜索
  • 全站搜索

运行监测体系破解数据中心运维难题

2014-06-20 17:38:41作者:中国光大银行信息科技部 姜岩编辑:金融咨询网
如何建设并运用一套有效的运行监测体系,为银行数据中心的安全运行提供基础技术保障,是目前运维管理层所面临的课题之一。

当前,各类数据中心虽然已经在实施较多的网管监控、系统监控项目,但是如何针对数据中心的整体进行监测,并将之建设成为一套能够不断自我完善、能够为运维管理提供支持的体系,是当前金融行业数据中心面临的运维管理难题。

一、运行监测体系之认识篇

        1.运行监测体系的概念

        运行监测体系是指由相关专业岗位的人员、被监测应用系统对象信息、衡量对象各组件工作状态KPI、各类策略监测采集所需工具、监测数据处理与分析手段、相关维护与运用工作流程等构成的一个功能体系。

        运行监测体系的监测对象,是应用系统整体构成的所有组成环节,而不仅仅是应用程序,还应包括其运行所依赖的存储环境、网络环境、服务器资源、各类系统软件、外部链路资源、维护操作任务、内部配置数据、系统间会话、业务数据交换任务等组件,因此,应用系统整体运行监测KPI体系,需针对应用整体构成的各组件进行统一设计,并通过一系列指标,去衡量各组件的运行是否正常。

        2.效能评价

        通过适当评价,能够发现体系中存在的问题,并制定有针对性的改进计划,以此不断提高运行监测能力。例如,从运行监测的结果维度评价,最直接的指标就是监测报警的有效性与准确性,有效性是指在所发生的各类运行故障中,监测系统能够及时预报、发现的比率,如能够发现95%以上的运行故障;准确性是指报警系统的误报率,例如,平均每3条关键报警即能发现一次真实故障。通过对于上述两项指标,以及指标达成情况的详细分析,发现问题并改进策略,就能够不断提升监测系统的整体有效性。

        如何建设并运用一套有效的运行监测体系,为银行数据中心的安全运行提供基础技术保障,是目前运维管理层所面临的课题之一。总结近几年专注于运维及监控管理的一些实践经验,将按照规划、体系、技术、运用四个不同纬度进行简要介绍。

二、运行监测体系之规划篇

        首先需要理清思路、识别要点、有效规划。谈到运行监测体系的建设规划,将从识别与认知、评估与测量、采集与处理、展现与运用四个方面进行简述。

        1.识别与认知

        所谓识别,是指能够以IT系统对外服务为线索,进行所有技术层面及维度的梳理与确认。不仅仅将“可见”的各类构成组件纳入监测范围,如服务器、数据库实例等,还应将“不可见”的组件纳入监测范围,如交易链路等,在全面识别监测对象信息后,就是有效的认知。也就是针对各类监控对象构成组件,分析其运行特点、关键状态为何,为后续工作奠定关键的知识基础。

        2.评估与测量

        对于监测对象进行有效识别与认知后,即针对各类IT运行组件,如何评估与测量。评估指应以哪些KPI、数据去判断某一IT组件运行是否正常、是否存在隐患、是否满足运行容量需求等。在具备了评估策略后,就要解决测量的问题,即以何种方法去测量才是有效的,例如,是采取抽样统计法,还是阀值判断法等。

        3.采集与处理

        在确定了测量方法后,需根据系统运行实际环境等因素,设计可行的监测数据采集手段,在确保生产系统安全稳定运行的前提下,能够尽量获取实时、全面的测量数据,并通过固定的逻辑对于采集数据进行处理,以便后续的处理与分析。例如,针对采集测量进行统一编码,在采集数据后进行,对数据进行“贴标签”处理,这样才能做监测数据的二次判断分析,解决监控报警的诊断与定位问题。

        4.运用与改进

        对于监测数据进行有效处理后,需有针对性的运用。针对一线值守人员、二线技术人员、技术专家、事件经理、运维决策人员的不同工作目标,需要分别展现哪些数据、结果,同时,还需要具备监测数据运用结果日常分析的机制,以便发现整体监测体系存在漏洞,并设计优化方案,不断查缺补漏,改进监测体系。

三、运行监测体系之体系篇

        运行监测体系的构成,是以有效的人员岗位分工与合作为主体,辅助以适用的工具、有效的知识及规范,形成发现问题、改进问题的不断自我完善机制,如图1所示。

数据中心运行监测体系试水-图1.jpg

        在上述运行监测体系图示中,主要岗位分工及工作过程要点如下:

        一线值守人员按操作规程及时处理各类监测数据,并详细跟踪、记录处理过程;

        监控管理人员跟踪并分析各类报警数据的有效性,发现问题并设计优化策略:

        监控技术人员按需求开发各类监测工具及手段,维护监控资产信息,并确保监控工具及功能能够被有效地交付到一线值守人员、二线技术人员等岗位;

        二线技术人员及时响应并处置报警,并根据实际使用效果,及时提出监控优化需求,同时针对各类运行问题与隐患,不断完善相关技术规范,避免同类问题的反复发生;

        运维质量管理人员,应采集各类监测与运行数据,形成常规分析机制,及时通报当前关键问题、工作优化建议,推动整个体系的不断优化,消除各类技术与工作隐患。

四、运行监测体系之技术篇

        有效的运行监测体系,最终离不开相关技术平台的支撑,而要搭建这一平台,首先要解决如下技术层面的关键问题。

        1.配置整体技术架构

        监控整体技术架构应包括监测数据采集层、专业监控工具功能层、监测数据快速处理层、监测数据分析展现与运用层,形成对于监测数据的处理流程,满足控制整体生产环境监控部署、从监测数据中发现问题的技术需求。

        2.确保数据有效采集

        对于生产环境中各类运行数据的采集,首先要尽量规避对于生产系统的直接影响,其次是保证数据的实时性与准确性,最后是对于原始监测消息的准确加工与判断,最终形成有效的监控采集数据。

        3.如何快速确认与定位

        当获取到监控报警后,首先要解决的是确认其有效性,即是否真的发生了生产故障;其次是针对已发生的生产故障,按照资产配置关系及技术逻辑,进行定位分析;再次是进行故障原因诊断,并进行有针对性的处置与验证。因此,在监测体系的技术环节中,需要解决监控报警消息的有效性自动化确认、故障层面自动化定位两个关键技术问题,才能保证监控报警的有效与准确,为后续处置提供精确导航。监控标准化与自动化实现原理如图2所示。

数据中心运行监测体系试水-图2.jpg

        4.有效展现与运用

        对于有效的监控报警数据与消息,应按需展现与运用,分别针对值守人员、技术人员、管理人员的不同工作目标,提供不同的视图与界面。因此需要解决监控数据的快速展现与灵活定制问题,解决此类问题的关键,就是对于数据的有效预处理与分布式计算。目前,海量非结构化数据采集与处理技术,非常适用于解决此类问题。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章