• 快捷搜索
  • 全站搜索

网络数据可视化在运维中的应用

2017-11-23 14:15:49作者:招商银行上海数据中心 刘天宏 汪亚亮编辑:金融咨询网
在日常系统运维、故障应急响应,以及后期的故障分析和问题追溯中,怎么使网络数据可视化,以让网络专家一次浏览大量的数据,并迅速发现异常数据或难以探测的趋势,可视化的流量分析和应用性能分析工具将起到越来越重要的作用。

银行数据中心网络和业务系统的建设发展,对于网络性能、关键业务保障都提出了非常明确的运维保障要求。在日常系统运维、故障应急响应,以及后期的故障分析和问题追溯中,怎么使网络数据可视化,以让网络专家一次浏览大量的数据,并迅速发现异常数据或难以探测的趋势,可视化的流量分析和应用性能分析工具将起到越来越重要的作用。

银行数据中心运维需求

  1.现有系统问题分析。在数据中心现有的各类网络监控工具的使用现状中,我们发现这些环境存在缺陷;一是监控展示比较分散,多平台数据无法集中利用;二是无法对重要服务设备的网络性能实时监控报警;三是无法全局展示数据中心重点区域网络性能是否正常;四是无法以网络拓扑的形式展示重要系统业务路径中出现的网络性能问题;五是没有对重要服务(如长连接)的网络性能实时监控及告警。

  我们需要通过定制化的软件开发项目的实施,以网络数据包为基础,通过有效整合包含镜像网络数据、现有系统的信息在内的多种数据源,基于大数据技术,从网络层面实现数据中心全网网络性能的IT可视性,最终实现对数据中心运维的优化,为网络运维室组打造一个覆盖全网的可视化网络监控系统。

  2.网络数据可视化项目目标。可视化是利用有效的技术,从海量的数据中将有效信息转换成图形或图像,以更直观的方式展示出来,并进行交互处理的方法。通过大数据技术,网络可视化项目可为数据中心日常运维提供一些有效帮助。

  一是对数据中心网络数据进行统一管理,分区展示。区域视图是比较宏观的对各网络区域的监控展现,在最初的页面上显示区域内部的流量比和区域之间的流量关系,数据来自连接到核心交换机的各级汇聚交换机和接入交换机。某一区域内部的流量总数显示的是区域内所有路径的入口节点流量之和。各个区域对外的流量单独配置网络流进行展示。区域内部的路径入口节点产生的告警显示在该区域上。

  二是网络监控排障首选工具。通过可视化系统能初步确认网络是否出现故障,缩短排障时间。网络包进行可视化分析的默认指标包括:吞吐量、响应时间、应用TOP 10、连接数、主机TOP10、包大小、TCP指标(重传、0窗口等)。可以自由切换查看,也可以添加其他网络指标。可以通过源IP、目的IP、源端口、目的端口、网络协议、TOP标志位、源MAC地址、目的MAC地址、ICMP类型等字段进行多个维度的深层分析。

  三是提供重要服务的网络性能实时监控及告警。银行的加密机对应用系统来说是关键的黑盒子节点。之前的监控主要通过在加密机服务器上部署agent进行,会出现监控没有报警,但是整个服务的响应大幅度降低,然后整个业务系统无法正常提供服务的现象。通过对网络数据包的可视化分析,可以针对加密机应用的响应时间、单台加密机的流量、网络包的延时、因为各种原因造成的客户服务端网络包重传等指标实时监控以弥补这方面的空缺。

  四是图形化展示各个区的网络性能参数,方便管理员、操作员查看,提升运维效率。

  五是系统方便使用,降低数据包分析的门槛,提升运维效率,加速排障过程。

  六是与PAI、ITIL网管等系统对接,无需平台切换,降低使用多种管理工具的复杂度,提高资源利用率。

  七是按需提供网络运行数据信息(可以为其他室组应用提供支撑)。

网络数据可视化架构设计

  如图1所示,为使网络数据可视化,我们采用旁路网络数据流包进行分析,同时开放接口抓取和提供其他资产、网管等系统的数据进行整合,统一纳入后台大数据分析平台进行处理,最终统一展示的架构。

图片3.jpg
图1 网络数据可视化部署系统架构示意

  本系统准备采用模块化的开发思路,各功能进行封装,以更好地契合分布式架构下的功能扩展和软件管理,并在这种开发思想的指导下,进行各项高级功能的扩充。通过这种循序渐进的方式,保证功能的健壮性和系统的稳定性,保证项目顺利展开。

  系统在功能层面分为以下4个层次,各层面均可采用分布式部署和管理的方式,并由一系列功能模块构成(见图2)。另外,系统还包括第三方接口,直接与别的系统进行对接。

图片4.jpg
图2 四个层次由一系列功能模块构成

  1.采集层。采集模块采用网络抓包分析还原的方式进行采集,支持镜像和离线数据包两种方式,同时支持netscout的接口。本层面的模块均为分布式部署,实时传输,以保证及时性。数据传输使用flume架构的传输模块,保证数据的实时性传输;同时支持加密的传输方式,保证数据的安全性;也支持压缩的传输方式,保证网络的畅通性。

  2.汇聚层。汇聚层负责整个数据的汇聚、分配和标准化过程。首先,它将数据按照网域进行组合,将数据打上网域的标签;同时,使用第三方提供的资产等资源信息,将数据与资源进行关联;最后,按照指定的规则为这些数据做一些预处理的标签,并提交给存储层。

  3.存储层。存储层主要对采集到的数据进行存储。存储方式为分布式存储,且会考虑数据的备份机制,并通过一系列手段来提高数据查询效率和存储效率。存储模块将大数据量进行分片,存储在分布式的各台PC Server中,并对数据进行压缩,这样可以最大限度地提高存储投入的效费比,即能较长时间地保存大量数据,符合相关的安全管理规定,又能保护硬盘等存储投资。对存储模块的数据附加查询索引,最大限度提高对所存储数据进行关键字匹配式查询时的效率。同时索引文件也采用压缩存储,以提高投资效费比。为了保证数据的有效性和安全性,我们需要在各节点间引入备份机制,保证分散于各存储节点中的原始数据不会因为存储层中任何一个节点的宕机而造成单点故障,影响系统正常分析,或造成数据丢失。

  4.分析展现层。分析展现层主要提供一整套分析的方法和展现框架,用于快速交互式分析存储层中存放的数据,并即刻展现分析结果。另外还提供一套即插即用的框架,供其上的功能插件层调用。分析模块提供所有Web提供的前端分析功能,比如自动发现、仪表盘的搜索、长连接的发现等,是整个产品的业务核心模块。资产同步模块负责同步第三方的资产管理资源信息,比如PAI等第三方系统。同步时,将第三方的数据按照第三方提供的接口进行提取,按照自身平台的数据结构进行结构化分析,与本系统维护的资产信息进行整理合并,形成新的资产信息。在本行的实际应用中,此模块同步指定F5的配置信息,将F5配置进行结构化,同时创建我们内部的数据结构,最终形成内部的F5结构,通过抓取的网络信息进行分析,最终完成自动的F5信息监控和实时展现功能。数据同步是将本系统获取和生成的数据,以指定的标准接口,同步到第三方接口中,比如监控数据、告警信息、统计报表等,支持的协议包含REST、SMPT、Syslog、SNMP等多种标准协议。

功能模块说明

  总体上,网络数据可视化架构包含以下程序模块。

  1.自定义的UI设计页面。作为企业专用系统,其Web界面需要按照特定的需求进行自定义。主要功能需要包括:定制化LOGO界面;按照系统功能定制的选项卡;具有现代感和科技感的界面展示,包括大屏模式展示;界面布局随着功能的增加而完善。

  2.监控总图。按照可视化的需求,系统分为设备视图、路径视图、区域视图等。可以从不同层面对监控对象进行可视化监控,打开可视化系统Web界面后,首先看到的是所有监控网口的流量图。可以切换到按照逻辑拓扑监控各项业务和网络指标的链路视图,或者按照设备类型监控各种资产如负载均衡、加密机等的设备视图。

  3.长连接自动发现。有长连接的业务系统一般为需要重点关注的业务系统。能够自动识别到会话是否为长连接,并对识别到的长连接会话进行统计,以方便管理员监控到哪些服务器间会有长连接会话包的存在。定期出此类会话的流量报表,供管理员核对检验。并为业务系统的日常运维,及实施重大重要变更之前提供一定的数据依据。

  4.可视化报表。“报表=多样的格式+动态的数据”。因此,灵活全面的报表功能是日常网络运维监控系统必须支持的。需要对各个业务系统所在区域中的服务器的流量进行监控,与业务监控最终形成一个完整的业务面板展示,最后以报表的形式导出。此外,报表要求扩展到不同的业务,对多样监控的指标,生成各种格式的文件,提供相关日、周、月报流量统计,并可以用邮件发出。

  5.系统状态告警。可视化网络一个重要的功能点就是监控系统里面加密机等服务应用在网络性能上是否出现问题。例如加密机流量、响应率、响应时间、重传等出现明显偏离后,可视化网络能够实时监测出,并通过与通知平台对接发送短信、邮件等告警通知。告警功能分为两部分:特征告警和基线告警。特征告警可用于突发流量监控等场景,当网络性能出现偏离时触发告警。而基线告警是自动分析业务流量基准,超出基准预警范围即显示告警信息。这种告警应用更为广泛和有效,例如在流量有异常,但还没有导致链路拥塞时就可以预警,有利于避免流量过快增长导致链路拥塞。

  6.与外围系统对接。可视化需要同用户自己的外围系统形成对接,例如和PAI系统对接后可以拿到某套系统中包含的所有设备信息,包括资产名称、设备类型、业务IP、管理IP等静态资产信息。此外还要和ITIL系统和华讯网管系统进行对接,其中ITIL系统可以提供网络设备的动态运行状态、设备的实时告警等信息;华讯网管系统则提供IT管理信息。对以上信息的有效整合,结合可视化项目中的网络数据信息,在通过大数据技术的分析,可以使可视化系统从多个视角对网络运行状态进行监控,同时在日常运维中提供了更多的使用场景,对招行运维系统的健康运行,提供更有力的支撑。

  7.智能的诊断和排错工具。支持群集部署,登录一台主机能查看所有流量信息,通过全网通信对关联查询来辅助管理员进行故障处理。通过对系统服务器IP地址做流量监控,可以自动发现会与此服务器发生通讯的所有其他服务器IP地址和流量情况,再确认各链路访问情况的负载,以用来评估该线路的运行情况。在仪表盘中,对常用的设备和重要指标进行实时监控,可以给管理员提供更全面的观感和启发。

  8.网络路径自动发现。可视化系统可以根据IP网段、PAI系统中的应用信息等内容,自动化生成网络路径图。选取节点后,可以查看该节点与其他节点的流量、协议、端口等网络指标。在与PAI系统的数据结合后,也可以直观地查看该节点的资产信息,增加了网络路径的可读性。并通过可视化中流量信息,自动化生产网络路径图,展示系统设备节点之间访问是否正常。同时网络路径自动发现功能也提供了手动编辑网络路径的能力。在自动生成的网络路径图的基础上选取特定节点,进行手动编辑,并保存,可以在日常运维中对重点业务进行重点关注。

  9.数据源检测。网络数据可视化系统作为一个覆盖银行数据中心全网的监控信息展示平台,数据的稳定性、完整性、可靠性都需要得到保障。因此当数据源(即网络数据流)发生异常变化时,可视化系统会及时发送告警。当前主要监控对象为探针接收的数据包流量异常变化、数据包中出现单向包、有大量重复包等现象等。当获取第三方数据失败后,系统也会及时发出告警。

  10.第三方数据接口。已经解析的网络数据包信息纳入大数据分析平台后,还可以按照不同应用或者不同室组的监控统计的定制化需求,对各项网络数据指标进行组织和计算,提供数据接口支持网络数据报告的定时导出。更灵活,便捷地满足数据中心日常运维管理需求。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章