• 快捷搜索
  • 全站搜索

利用大数据技术优化生产运营监控系统

2016-08-11 16:15:32作者:中国光大银行信息科技部副总经理 史晨阳编辑:金融咨询网
光大银行近年来开展了基于网络报文分析和大数据技术的生产运营监控预警系统的建设工作。通过生产运营监控预警系统的有效整合,利用网络报文分析与大数据技术对监控报警数据、系统性能数据进行综合处理与分析,在保证形成有效报警的同时,针对历史性能数据生成各类分析报表视图,优化监控策略,整体提升应用监控能力。

 随着业务的快速发展,各商业银行的IT系统无论是纵向的技术架构复杂度还是横向的业务关联度,都远远超过以往。如何确保应用系统7x24小时连续服务,始终是管理者及核心技术人员面临的巨大挑战。

        为解决这一难题,光大银行自2013年起,分阶段、有重点地开展了基于网络报文分析和大数据技术的生产运营监控预警系统的建设工作。通过系统的建设与运用,针对生产环境的各个关键环节,进行监测目标的识别与探测,并根据各技术层面的特点,分别开发并部署了各类监控工具与策略。通过生产运营监控预警系统的有效整合,利用网络报文分析与大数据技术对监控报警数据、系统性能数据进行综合处理与分析,在保证形成有效报警的同时,针对历史性能数据生成各类分析报表视图,帮助各线技术人员排查生产隐患、优化监控策略,整体提升应用监控能力。该系统投入运行以来,较大地提升了故障监控发现率、监控报警有效率等关键管理指标,为安全运营提供了强有力的技术保障。

一、方向

        生产运营监控预警系统需要有效地利用现有IT资源,建立标准化、规范化、一体化的信息系统监控管理体系。实现整个IT系统监控管理的可控性、可管性,提高系统运行效率和IT运维服务水平,确保IT系统的稳定、安全运行。系统具体需要实现以下几个方向。

        1.建立应用整体监控策略体系。首先根据以往应用监控发现、定位及处置经验,确定包括应用监控范围、应用监控内容、应用监控工具部署原则、应用系统监控开发技术规范等关键要素在内的应用整体监控策略。同时,为采集关键应用系统的各项关键监控指标(如交易状态等),针对新开发系统、已有系统以及不同开发平台(如C环境、JAVA环境等)制订相应的应用监控开发技术规范。并结合应用整体监控实施策略,完善应用系统开发非功能性需求的监控部分,以便落实相关管理要求及技术规范。

        2.实现应用关联关系实时监控。梳理构成应用的各类技术组件的构成关系,根据应用之间服务关联关系(会话层关系),并结合自动扫描手段,实现应用系统之间服务关联关系的实时监控与报警。同时,根据应用系统之间交易关联关系,并结合技术手段,实现交易关联关系的自动采集与监控。

        3.实现应用故障定位及详细分析。首先基于应用整体监控实现及关联关系监控手段,发现与定位应用故障,并根据报警情况,动态调整监控策略。在应用系统发生故障的情况下,根据已有策略,执行相应操作,实时采集故障现场数据。根据实时采集的数据,通过工具辅助分析,结合技术人员具体经验,给出应用故障成因及改进建议;并提升运营架构的可视化程度,从概念层、逻辑层、物理层三个层面为各个级别的管理人员和技术人员提供访问视图,并利用动画展现技术将交易在各个系统之间的流转以节点流程图的方式进行展现,通过简洁友好的人机交互界面,进一步细化系统、服务、交易的属性信息,实现IT环境展现的动态、鲜活和可视化。

二、技术

        为了保证准确及时地获取资源数据,又不影响应用交易,业务数据的获取及分析采用了以下技术。

        1.全方位网络交易报文分析。通过直接获取系统内部网卡流量、系统间网络镜像包的方式,全方位分析网络传输各层协议与数据,基于网络交易报文分析结果,发现并诊断相关系统运行隐患。

        2.Golden Gate离线数据分析。利用GoldenGate数据同步技术,实现交易流水表的实时镜像同步,在保证实时交易的前提下,实现离线状态下实时交易性能分析。

        3.大数据技术的运用分析。通过大数据采集架构获取海量结构化或非结构化数据,利用Hadoop技术的海量数据分析能力,发现并诊断相关运行隐患。

        4.生产运营监控预警系统的集中整合。通过生产运营监控预警系统的数据整合能力,整合网络报文数据、离线同步数据、大数据平台采集数据,同时结合应用、系统、网络各层面监控数据进行综合性处理,完整地监测系统整体系统运行状态,并为根源问题分析提供全面的现场数据。

三、成效

        光大银行将信息系统按重要性分为A、B、C三个等级。并根据系统的重要性,在A级、B级重要系统中实施网络抓包分析的应用监控,如:在A级系统中选取多个最重要的系统(如总行前置、核心、网银、客服、图形前端系统等),实施GoIdenGate数据表同步分析的应用监控;在日志文件较规范的A级重要系统中实施大数据日志分析的应用监控;并且,在完成重点系统的项目实施和功能验证后,在全行其他系统进行全面推广,使项目的成果得以全面落地。

        1.系统逻辑架构。生产运营监控预警系统采用B/S架构,逻辑上划分为监控子系统层、数据采集层、汇聚处理层,展现层,同时提供了与ITIL管理平台的集成模块。如图1所示,监控子系统层采用BPC报文分析工具、Hadoop大数据平台、GoldenGate分析工具等多种监控工具,实现对应用可用性、应用交易的监控。数据采集层通过使用Syslog、JDBC和EIF等方式从监控子系统层采集监控数据,并将数据传送到汇聚处理层。汇聚处理层采用统一的配置管理库和规则库进行事件压制、事件丰富、事件关联分析等处理,同时对采集的交易性能数据进行抽取和归档保存。展现层从汇聚处理层获取处理后的数据进行统一展现。

9.jpg

        2.网络报文分析。网络报文分析技术充分利用可靠的网络数据资源,在指标上以交易为中心,提供交易量、成功率、响应时间三大关键指标,并区分交易类型、子交易类型、交易渠道进行指标统计。在监视范围上覆盖端到端的应用服务组件,实现应用组件、主机的性能和可用性的多维度可视化。同时,其采用旁路式进行应用系统监控的方式,不会对被管应用系统产生任何影响,避免了传统监控方式所带来的性能风险,同时也可以获得实时统计能力,能够第一时间为IT部门提供应用性能数据。

1.jpg

        3.大数据分析。如图3所示,IT基础环境产生的日志数据量庞大,涉及面广,且格式不尽相同,通过大数据平台能够实现各类结构化和非结构化日志的关联分析,实现对交易信息的统计分析(如获取交易量、交易响应时间)。同时,还能通过扩展使用Storm组件实现日志的实时监测分析、关键字检测和超阈值情况的实时告警。

2.jpg

        4.交易流水分析。交易系统的流水数据对于应用系统的日常运维管理发挥着重要作用。光大银行采用同步镜像交易流水数据进行实时分析,避免了频繁访问交易流水数据造成的生产压力。通过挖掘交易流水数据,可以对系统的交易量(均值、峰值)、交易响应时间进行统计,并利用这些数据对业务需求进行阈值告警,同时作为系统容量分析的依据。这一具体过程是:生产业务系统的Oracle数据库通过GoldenGate抽取应用交易流水表到监控服务器的临时数据库表。其数据复制的原理是读取源端数据库的Redo日志或归档日志,将增删改的操作传递到目标端数据库重新执行。然后通过ETL抽取工具,对数据进行加工完善,生成关键的交易性能指标和相应的峰值。

四、收益

        除了前文提到的应用整体监控、应用关联关系实时监控、应用故障定位及分析,生产运营监控预警系统还能够对应用整体生产环境进行监控。它针对关键应用系统,全面梳理并分析整体生产环境所涉及的各技术层面、相关层面等内容,明确关键系统所需监控的层次与维度。并根据已梳理的应用整体生产监控环境,确定各层面、各维度的监控指标,给出采集方法、判别方法、处置建议等关键信息。再进一步根据应用整体监控环境及相关监控指标,利用相关的监控工具及技术手段实现指标采集、数据处理、数据展现、数据分析等关键功能。

        同时,基于交易报文分析系统和大数据分析系统,还能实现对关键系统、关键交易的分秒级实时监控。能够迅速发现并准确定位随时出现的交易缓慢、交易成功率降低,甚至重大硬件问题导致的系统故障。

        基于“网络报文分析和大数据技术”的应用监控实现,是中国光大银行信息科技部吸收引进网络报文分析技术、Hadoop大数据技术等业界前沿技术后,在光大银行内部进行落地实施的试点工程。通过工程的实施,使得运维监控系统在技术上逐步完善,同时也总结出如何学习、吸收并成功运用新技术和新手段的一套方法,为今后新技术的引进,以及通过新技术创造更大的价值打下了良好基础。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章