• 快捷搜索
  • 全站搜索

数据平台推动运维智能化建设

2017-05-02 17:42:56作者:王连勇 丁亮 李强 编辑:金融咨询网
传统的工具平台建设已经逐渐看到天花板,城商行对于海量运维数据分析平台建设的需求日趋强烈。如何能够充分利用现有数据,提升运维服务的价值,通过全方位的数据内容输入实现自动化的智能分析决策,推动运维智能化建设进程,是目前绝大多数城商行普遍关注的问题。

随着互联网金融创新的普及,银行业务对信息系统的依赖程度愈加紧密,对业务连续性的需求不断提高。为保障重要信息系统安全稳定运行,提升业务连续性,在运维管理方面实现对运维事件的快速定位、处置、甚至预警,银行信息科技部门需花费大量人力物力建设运维管理平台。

        传统的工具平台建设已经逐渐看到天花板,城商行对于海量运维数据分析平台建设的需求日趋强烈。如何能够充分利用现有数据,提升运维服务的价值,通过全方位的数据内容输入实现自动化的智能分析决策,推动运维智能化建设进程,是目前绝大多数城商行普遍关注的问题。

运维工具平台建设现状

        (一) 运维数据类型

        从数据更新频率的维度来看,运维数据可以分为如下类型:

        1.静态数据(相对):是指数据更新频率基本以小时或者天为单位发生变化,或者是人工录入的数据。具体包括配置数据、拓扑数据、工单数据、库存与资产数据、知识库数据等。

        2.动态数据:是指时时刻刻产生的运行数据。具体包括日志文件、警告和事件数据、网络流量与事务处理、性能指标数据等。

        从运维数据数据类型的维度来看,运维数据又可以分为:

        1.结构化数据:是指按照固定结构、样式产生的数据,通常存放于关系型数据库中,这种类型的数据便于进行加工、整理,易于被再利用。比如监控平台收集的性能数据,配置管理系统记录的配置数据、拓扑数据等。

        2.非结构化数据:指数据的形式相对不固定,通常是各种格式的文件,比如日志文件、社交媒体数据等。这类数据容易受到文档格式的束缚而使得信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。

        (二) 现有运维工具平台的不足

        城商行针对上述不同类型的数据目前采用的主流运维工具平台大致可以分为如下两类:

        1.阈值监控工具

        为有效保障运维事件处置的及时性,城商行针对不同类型的设备和设施,采用了多种阈值监控工具,如机房、网络、主机、存储监控等等,此类监控工具被各大城商行广泛使用,几乎覆盖了机房内的所有软硬件产品。为了解决不同工具的流程以及管理上问题,各行利用统一运维平台对各类工具进行了整合,实现了不同工具的集中告警、集中处置,同时与行内的其他系统,如流程系统、工单系统、知识库系统实现整合,在保证运行维护效率的同时,实现了事件处置过程的流程化、规范化。

        随着业务连续性要求以及运维管理水平的不断提高,阈值监控工具的不足也逐渐暴漏,主要体现在如下几个方面:

        (1)阈值监控告警往往发生在事后,极难实现在事前对运维事件实现预警;

        (2)阈值监控工具无法对日志等非结构化数据进行分析和判断,缺少了事件分析过程中的重要一环;

        (3)故障处理最关键的往往是刚刚发现故障的前 30 分钟,阈值监控工具往往将实时数据和历史数据分开处理以及存放,运维人员很难借助历史数据的挖掘,快速分析故障原因。

        2.日志监控工具

        为有效弥补传统运维工具平台对非结构化数据分析处理的空白,部分城商行引入了日志监控管理工具,主要解决了日志数据分散、故障难以及时定位,海量日志数据、存储成本高,缺少分析工具、难以挖掘日志数据价值等诸多问题。日志监控管理工具的引入极大地提升了运维事件处置的效率、提高了城商行风险事件预警的能力,但是如进行大范围推广使用,以金融行业内使用最广的某日志监控管理工具为例,还存在如下问题:

        (1)产品授权费用昂贵。收费依据数据流量来计算,若扩大接入系统范围,授权及维护成本也会急剧增高,且随着城商行业务量的爆发式增长和信息系统数据量的不断增大,授权费用将会是影响工具广泛使用的关键“瓶颈”。

        (2)平台相对封闭。该工具作为一款商业软件,只支持使用自己的平台进行展现,相对较为封闭,且海量数据一旦导入平台,后期如要更换会非常困难;

        (3)计算基于已知模型。该工具是通过将运维数据带入已知模型去计算事件风险概率,这样一方面要求运维团队需要长期维护已知模型的准确性和完整性,同时还需要不断探索开发新模型,这种模式在应对未来互联网瞬息万变的业务需求变化以及受云计算等新技术带来的基础架构快速迭代面前显得非常困难。
现有运维管理工具已逐渐无法满足城商行运维管理能力提升的需要,随着自动化、智能化运维的需求日趋迫切,需要一种全新的运维监控平台的产生去弥补现有工具的不足,近些年,大数据技术在城商行的落地及广泛应用为其提供了契机。

运维大数据平台建设思路

        目前部分城商行已经开始搭建大数据平台,并着手进行大数据应用体系建设。运维管理可以借助以上的平台和应用建设,充分结合运维自身特定的需求,构建运维大数据平台,对大量的运维数据进行分析和挖掘,以实现运维的智能化、自动化。

        (一) 银行大数据平台建设

        银行大数据平台可以Transwarp Data Hub成熟产品为基础,包括数据集成、数据存储、数据计算、数据管理、数据接口、安全控制与系统运维六大模块,如下图所示:

图片1.jpg
图一:银行大数据平台逻辑架构

图片2.jpg
图二:银行大数据平台与关联系统总体架构

        1.平台数据源来自内部数据以及第三方数据接入,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等;

        2.数据缓存层通过分布式消息队列Kafka接入实时数据,Sqoop全量或定时增量同步关系型数据库数据,Kettle作为数据抽取管理工具,FTP over HDFS提供文件通过FTP传入HDFS的通道,Flume提供海量日志文件汇聚到HDFS的功能;

        3.数据服务层底层为统一分布式文件系统HDFS,在HDFS之上提供分布式NOSQL(Not Only SQL)数据库为高并发检索分析以及事务支持提供平台级支撑;

        4.数据应用层通过YARN提供统一的资源管理调度、Spark为大数据平台提供高效的数据挖掘能力、 Rstudio挖掘数据深度规律并建立数据模型、Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘;

        5.访问层通过安全通信协议和角色权限管理,在软件层面提供通信安全和数据访问安全的双重保障,有效的对各个部门以及下级单位的数据访问进行控制和安全管理,实现平台4A级统一安全管理。

        大数据平台项目自2015年启动以来,已陆续接入客户风险预警、工商及税务数据管理等多项业务。大数据平台的应用,弥补了传统数据仓库在非结构化数据处理和分析方面的不足,也为银行经营模式、营销模式以及服务模式转型提供强有力的技术支撑。

        (二) 基于大数据技术构建运维平台的优势

        1. 彻底打破运维数据“竖井”,运维数据实现完全共享。

        运维工具平台的建设,往往包括了多个独立的工具软件,比如网络监控、系统监控、应用监控、日志分析、机房监控、存储监控等,每个工具的界面操作和数据存放都是分开独立的。

        大数据平台一边能兼容历史上分阶段建设而成的各个运维工具的存在,一边能打破工具的边界实现彻底的运维数据的开放和共享,让运维团队具备全网视野,掌握跨工具、跨厂商、跨技术领域等全局信息,实现可以从任意数据作为入口,访问相关联的其他运维数据,从而大幅降低人工维护和检索数据的时间,提升运维数据的应用价值。

        2. 运维大数据带来的数据洞察力

        依靠运维大数据分析平台的建设,将所有的实时数据、准实时数据、历史数据整合到一个大数据分析平台,进行统一分析,不但能够拥有每秒大并发吞吐量的处理能力,并且能够同时关联到历史数据进行联合检索和关联分析。

        基于这个平台,可以先把全网的运维数据进行汇聚和索引,先全部装到一个巨大的篮子里面,在需要的时候,基于大数据平台的搜索能力,提供全网运维数据的索引、检索和文本分析能力,在文件数据流、文档、数据库之间进行交叉索引、关联分析和全文检索。这样就摆脱了已知模型的限制,不需要事先去维护一个越来越庞大和复杂的已知数据模型,而是在任何业务需求出现的时候,直接的、快速的、随用随取的在数据海洋中获取分析结果,不仅更精确,更完整,也能够更快的响应业务需求。

        3. 运维大数据带来的预测力

        大数据平台上,可以通过机器学习训练,对历史的运维数据进行分析统计学习。也可以通过指定算法,从庞大的历史数据中获取原本需要耗费大量的人工来创建和维护的规则、模型,或者实现原本人力根本无法想象的任务,下面以三个算法为例:

        (1) 告警的周期性频发规律

        基于对历史告警数据的学习训练,可以发现百万千万条告警数据中,每一种告警基于不同时间周期维度的发生频率,从而推断出可能的规律和潜在的隐患。
按照主动分析出来的告警周期性发生的规律和模式,结合业务或IT环境的影响,可以制定相应的告警响应和处理策略。

        (2) 告警的相关性分析规律

通过对所有历史告警数据、历史日志数据的机器学习训练,自动将设定的时间窗口内,先后出现的多个告警归入一组,并根据同时出现的频率和概率设置可信度,从而自动分析告警根源因关联规则,不再完全依靠经验来手工撰写。找到告警的相关性规律以后,可以在根源因告警出现之后,主动预测随后发生的告警/事件,主动做好相关预防工作。

        (3)基于集中配置库 CMDB 的故障解决辅助工具

        基于运维大数据平台,通过配置项和配置项关系数据,建立所有的运维数据的关联性。在任何一条故障数据的显示窗口,都可以直接根据全网的数据上下文关联,索引到所有跟该条故障数据相关的配置项的配置信息、历史工单信息、物理拓扑或者应用拓扑中所处的位置、历史上的周期性出现的规律、关联的告警和日志信息等等。通过运维大数据平台,完成故障信息的画像以后,还可以自动调用知识库、经验库或者行动预案,触发自动化操作。

        对于科技部门来说,运维数据是一种海量、高增长率和多样化的信息资产,在搭建符合银行运维特征的运维数据平台的基础上,构建关联性分析模型,充分挖掘信息资产潜力,从而实现实时的运维过程中风险(可用性事件)的预警,以及在处理故障过程中快速诊断故障(故障关联分析及定位),才能使得运维团队拥有更强的决策力、洞察发现力以及流程优化能力,从而更早的发现运维安全隐患,保障信息系统的稳定运行。

        (三) 运维大数据平台的建设步骤

        基于大数据技术搭建一体化运维大数据平台,实现统一运维数据管理,主要实施步骤参考如下:

        1.基于现有成熟商用大数据产品,构建统一的运维数据库服务,用于各种类型数据的集中存放。

        2.梳理网络监控、主机监控、机房监控、工单、知识库等相关系统,开发相应接口将相应数据实时导入大数据平台。

        3.基于开源技术实现各类日志的实时收集、整理并导入大数据平台。

        4.开发实时搜索和展现功能。基于开源软件实现日志按关键字、模糊查询等搜索功能,实现应用系统运行情况、硬件资源使用情况、软硬件日志等重要关注数据的实时展现。

        5.实现运维故障预测与诊断。对应用、系统日志进行挖掘,联合系统和应用开发人员分析如系统资源利用率与业务量、软硬件告警与业务量等关联关系,收集样本数据、分析故障模型,利用案例积累,实现运维故障的预警与诊断。

(文章来源:新金融世界杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章