• 快捷搜索
  • 全站搜索

数据中心 IT 设备硬件级监控技术探讨

2018-11-19 15:48:29作者:中国农业银行 荆峥等编辑:金融咨询网
浅析了业界主流的各类监控技术,并对各技术的适用场景进行了对比;以监控概念为指导,以监控技术为要素,提出了构建面向大型商业银行数据中心的监控解决方案的配置应用策略。

近年来,随着商业银行业务量的大幅增加和金融IT技术的快速发展,数据中心的IT设备数量呈爆发式增长。不同于系统级监控具有良好的可扩展性,当前以人工巡检为主要手段的IT设备硬件级监控成为数据中心安全运维的瓶颈。

  本文针对大型商业银行数据中心IT设备硬件级监控技术进行探讨,运用以信息流的来源和去向为维度的二维象限法,对监控概念进行了四象限划分,提出了带内硬件监控和带外硬件监控的概念;同时,浅析了业界主流的各类监控技术,并对各技术的适用场景进行了对比;以监控概念为指导,以监控技术为要素,提出了构建面向大型商业银行数据中心的监控解决方案的配置应用策略。

一、数据中心IT硬件运维的挑战

  大型商业银行数据中心部署的IT设备数量动辄数以千计。由于设备数量多、硬件架构复杂,长期生产运行过程中IT设备硬件故障难以避免,硬盘、板卡和电源等硬件告警事件频发,严重影响了生产的安全运行。数据中心的IT硬件运维面临着严峻的挑战。

  目前,IT硬件运维业已成为数据中心亟待解决的痛点。以中国农业银行(以下简称“农行”)数据中心为例,该数据中心的机房部署了IT设备数千台套。设备类型繁多,其中包含:主机、小型机、PC服务器、刀片服务器、SAN存储、NAS存储、带库、负载均衡、网络相关设备和其他类型设备等,其中PC服务器占比较大。同时,设备品牌、型号繁多,共涉及品牌数十个,型号数百种。经统计,一年内发生的确定性硬件告警次数高达1000多起。

  农行数据中心的现有IT硬件监控手段是人工巡检。值班人员每天以一定频度检查每台设备的硬件运行情况,检查手段包括:看指示灯、感受机箱温度和听有无杂音等。值班人员的巡检频度为几小时一次,工作相当繁重,且效率低下。以人工巡检为手段的IT硬件监控存在如下缺陷:

  (1)响应时间较长,需小时级的时间方能发现某告警,还不包括后续人工报告的时间。

  (2)准确度不高,告警定位不准确,误报、漏报的可能性较大。

  (3)逐个检查设备状态,对值班人员的体力是个巨大的挑战。

  (4)可扩展性差,对于飞速发展的商业银行数据中心,将来面对万平米级的机房面积和上万数量级的设备,现有监控手段将会捉襟见肘。

二、IT硬件监控的概念与分类

  监控本质上是一个信息流动的过程,监控对象被关注的信息点,我们称为监控指标。本文尝试从该信息流的来源和去向的二元判断维度,对IT监控进行划分和概念上的定义。

  以信息流的来源维度,IT监控可划分为系统级监控和硬件级监控。监控指标是用来描述OS、中间件或应用状况的监控,我们称之为系统级监控。监控指标是用来描述IT设备硬件状况的监控,我们称之为硬件级监控。必须指出,两类监控的判断标准是信息的来源,而不是信息的载体和渠道。某些可在OS层获取的信息,如果传达的是硬件的状况,仍被认为是硬件监控指标,下文会有进一步论述。系统级监控的常见监控指标包括:各类应用的运行状态及告警信息、各类中间件的运行状态及告警信息、数据库运行状态及告警信息和OS层的软件级告警信息。硬件级监控常见监控指标包括:CPU状况、内存状况、硬盘状况、机箱温度、电源状况(电流、功率及告警信息)和风扇状况等。

  以信息流的去向维度,IT监控可划分为带内监控和带外监控。通过标准网口传输监控数据的监控,称为“带内监控”。通过专用的硬件管理接口传输监控数据的监控,称为“带外监控”。带内监控通过标准网口传输,不需要独特的硬件支持,通常不可独立于OS进行。带外监控通过特殊定义的硬件接口规格传输数据,需独特的硬件支持,一般需配置单独的管理口IP,可实现不依赖OS甚至BIOS的独立数据传输。

  运用二维象限法,通过两个划分维度可以将监控划分为一个四象限概念空间,如图1所示。

图片1.jpg

  IT硬件监控根据实现途径可分为两类:带内硬件监控和带外硬件监控。通过带内传输监控数据的硬件监控,称为“带内硬件监控”;通过带外传输监控数据的硬件监控,称为“带外硬件监控”。下面将以上文提出的概念族作为线索,论述各类监控技术和监控解决方案。

三、IT硬件监控技术浅析

  根据上述的四象限监控空间模型,无论是系统级监控还是硬件级监控都有带内和带外的实现方式,这在技术上确实是可行的,这是因为OS与IT硬件具备特有的交互性,如图2所示。

图片2.jpg

  我们知道,OS作为直接运行在硬件裸机上的最基本的系统软件,是IT硬件的管家,它可以隐藏具体硬件细节同时向上提供抽象化、通用化的硬件接口。简而言之,许多硬件的状况都能在OS层获取,而硬件的故障也多能反映为OS层的某些告警,从而通过带内传输出去。以此类推,带外技术也支持从操作系统中获得一些信息。

  我们从技术层面对IT硬件监控进行解析,将能实现硬件监控的技术分为两类:带内硬件监控技术和带外硬件监控技术,两类技术分别通过不同途径获取来自硬件的信息,如图3所示。

图片3.jpg

  带内硬件监控技术的实现原理是:利用OS与硬件的交互性,对硬件信息在OS层的某些映射进行过滤、关联分析和判断,形成监控数据,整个过程的数据通过带内进行传输。该原理仅是具体技术的概括性阐述,各种监控技术的具体实现千差万别。这里说的OS层映射,既包括日志、文件和进程这样的信息载体,也包括控制台、API这样的交互接口;过滤、关联分析和判断等工作可能发生在被监控设备的OS中,也可能是传输到监控设备后进行。带外硬件监控技术的实现原理是:定义专门的管理接口标准,在特殊的硬件部件的支持下,通过带外传输监控数据。

  下面将分类介绍各种监控技术,并对各自的适用场景进行分析。

  1.带内硬件监控技术

  根据是否需在被监控机部署代理软件(插件),带内硬件监控技术又可分为Agent监控和非Agent监控两大类。

  (1)Agent监控

  顾名思义,Agent监控是指在通过在被监控端OS上部署代理软件(插件),实现数据采集的监控技术,是一种功能较为强大、效率较高、可定制性较高且对监控端依赖较小的监控手段。Agent运行在被监控端,需占用一定的系统资源(CPU、内存等)来运行。Agent可以对数据进行分析和汇总,并经压缩后进行实时传输,在一定程度上解放了监控端。另外,Agent可定制性较高,一般支持二次开发,可监控用户定制的监控指标。

  Agent监控比较适用的场景有:一是需采集的数据量较大且实时性较强的监控;二是被监控端系统资源充足而监控端资源相对紧张的监控;三是网络带宽较为紧张的监控;四是监控指标定制化程度较高的监控。

  (2)非Agent监控

  非Agent监控是指不依靠部署在被监控端的软件(插件),而通过一些标准的协议或其他途径,实现监控数据采集的诸多监控技术的统称。相对而言,非Agent监控具有对被监控机影响小、部署简单、网络带宽占用率较高和不可二次开发等特点。

  ①SNMP监控

  SNMP即简单网络管理协议。目前,几乎所有厂商都已实现了对SNMP的支持,SNMP已成为一个统一的、跨平台的公用通信协议。SNMP监控又可分为主动型监控和被动型监控两类:主动型监控是指通过Server发送状态请求报文,而由Client响应并将相关状态信息反馈给Server的监控方式;被动型监控,又称Trap监控,当某些需要被关注的事件发生时,Client可以向Server发送Trap报文,以告知Server该事件。

  SNMP监控的适用范围非常广泛,所有支持SNMP协议的设施皆可使用。主动型监控和Trap监控可灵活配置,以适用于不同场景。

  ②SSH/RSH/Telnet/FTP监控

  该技术一般是通过TCP/IP协议族里的协议连接到被监控机,通过协议功能或运行脚本并传输运行结果到监控端实现监控。

  SSH/RSH/Telnet/FTP监控的监控方式简单直接,容易部署,而监控结果呈现的信息相对原始,可监控的指标也有限。

  ③Syslog过滤监控

  Syslog是一种用来在TCP/IP的网络中传递系统日志的标准。该协议通过Syslog进程记录系统的相关事件,并提供了一个传递方式,允许设备通过网络把事件信息传递给监控端。使用Syslog协议实现硬件监控,难点不在于部署,而在于设置过滤策略提取出跟硬件相关的事件和问题。

  Syslog过滤监控的适用场景:被监控机开通了Syslog协议和端口,拥有网络准入,且监控机资源相对充足的情形。

  ④HMC监控

  HMC提供了一套标准的用户接口来配置和管理小型机上的分区。配备HMC的小型机也可以通过HMC进行硬件监控。在HMC上,可通过编写脚本,实现对硬件状态进行轮询;同时支持设置SNMP Trap,实时发送需要被关注的事件。

  HMC监控本质上不是独立于其他监控技术的独立技术。其适用场景为配置了HMC的小型机。

  ⑤WMI监控

  WMI是一项Windows的核心管理技术,提供了一个通过操作系统、网络和企业环境去管理本地或远程计算机的统一接口集。使用WMI,我们可以访问、配置、管理和监视几乎所有的Windows资源。通过WMI,应用或脚本避免了直接访问操作系统各个部分的底层API,从而大大降低了实现难度。

  WMI监控的适用场景:操作系统是Windows的设备。

  ⑥SMI-S监控

  SMI-S即存储管理接口标准,是一种专门用来监控和管理存储设备的标准。SMI-S的主旨是,提高存储区域网络(SAN)中异构的存储设备的互操作性,在存储设备和管理系统之间提供标准化的通信方式,使存储管理实现厂商无关性,提高存储管理系统能够实现鉴别、分类、监控和控制物理及逻辑资源的能力。

  SMI-S监控的适用场景:支持SMI-S的存储设备。

  2.带外硬件监控技术

  下面介绍业界流行的带外硬件监控技术—IPMI监控。IPMI的主旨在于提供一种硬件管理接口标准,通过该标准用户可以在不依赖OS甚至BIOS的情况下配置管理服务器并监视服务器的物理特征。

  IPMI的核心工作部件是一个专用芯片——基板管理控制器(BMC),它通常是一个安装在服务器主板上的独立板卡(有的主板也可直接支持)。IPMI规范定义了一套指令,在工作时,所有的IPMI功能都是通过向BMC发送指令完成的,如图4所示。

图片4.jpg

  基板管理控制器可通过传感器、监测电路收集信息,并将传感器信息存储到本地的传感器数据记录(SDR)里,将系统事件存储到本地的系统事件日志(SEL)中,以便日后查询。对于接收到的严重事件,BMC将发送警报信息和故障日志记录给监控端。另外,IPMI2.0提供的SOL(LAN上串行)功能,更可以使得系统与串口之间的对话由BMC重定向到网络上。这样一来,Windows的紧急事件管理控制台(EMS)和Linux的串行控制台,均可以通过IPMI来访问。这便是IPMI可以同时获取硬件层信息和OS层信息的原因。

  IPMI当前的适用范围主要是X86构架的机器。很多品牌的机器自带的监控管理接口也支持IPMI功能,具体要看设备型号是否为支持IPMI的机型。

  3.带内硬件监控与带外硬件监控的对比

  带内、带外硬件监控技术的区别主要体现在以下五个方面。

  (1)监控指标:带内硬件监控技术是通过OS与硬件的交互性来获得硬件情况的,它可以监控的指标较多;带外硬件监控技术监控的指标相对少但直观性更强。

  (2)运行方式:带内硬件监控技术需在OS层及以上运行;带外硬件监控技术依赖于特殊的硬件模块,可以独立于CPU、OS甚至BOIS运行,即使系统未加载或宕机,依然可以工作。

  (3)资源占用情况:带内硬件监控技术需占用或多或少的系统、网络资源;带外硬件监控技术占用的是独立的硬件模块和带外管理网络。

  (4)部署方式:带内硬件监控的部署几乎都在软件层面;带外硬件监控的部署需要进行物理布线等工作。

  (5)适用范围:带内硬件监控技术多样,适用范围广,可涵盖几乎所有设备类型;带外硬件监控技术(IPMI)目前只支持X86构架的设备。

四、大型数据中心硬件监控技术的配置应用

  大型数据中心往往部署着数以千计的IT设备,设备类型、品牌、型号分布广泛。各类监控技术各有其特点和适用场景,并且不同于已相对完善的应用和中间件监控,IT硬件监控没有OS的统一界面及其生态环境下一系列标准协议族的支持,IT硬件的监控具有其固有的复杂性。因此,要想有效实现覆盖所有IT设备的统一监控平台系统,必须根据设备类型、使用场景合理配置各类监控技术。

  根据各类监控技术特点,结合大型数据中心的运维经验,提出IT设备硬件监控技术的配置应用策略如下。

  (1)对于PC服务器:以IPMI带外监控做为基础监控手段,获取其支持监控的基本硬件状态信息;同时可采用各带内监控技术为辅助,获取更全面的硬件状态信息。

  (2)对于主机:IBM主机都配备HMC,可采用HMC监控。

  (3)对于小型机:配有HMC的小型机采用HMC监控;未配置HMC的小型机在支持相关标准协议且路由可达的情况下可采用SNMP、Syslog、SSH/RSH/Telnet/FTP监控等。

  (4)对于存储:以SMI-S监控(可辅以SNMPTrap)为监控手段。

  (5)对于负载均衡、交换机:以SNMP为监控手段。另外,对于高度定制化、功能及性能要求较高的监控需求,可以考虑在权限允许且资源富裕IT设备上部署Agent进行监控。对于已经装有Agent的IT设备,可以考虑接入Agent数据进行监控。

五、监控效果实测评估

  以上文提出的监控技术配置应用策略为指导,我们搭建了IT硬件监控原型测试系统,对可行性和监控效果进行了测试,从全面性、实时性及准确性等方面进行了评估。

  原型系统测试中,我们择选了17个不同型号的IT设备各1台作为测试标的,待测设备型号均为常见型号(所属设备数量占设备总数的较大比例),且尽量覆盖不同的设备类型、品牌和购置年代,较能代表数据中心IT设备基本情况。设备类型包括:PC服务器、小型机、刀片服务器、负载均衡、带库和存储等;设备品牌包括:华为、曙光、IBM、HP、DELL、F5、昆腾和Netapp等;购置年代从2007年至2014年间。设备列表见表1。

图片5.jpg

  通过原型系统的实际测试,对待测试IT设备均实现了IT硬件级监控,可自动发现IT硬件级故障并发出告警信息,详述如下。

  1.全面性评估

  原型监控系统可检测各设备类型的硬件信息指标共计55个,包括但不限于以下指标:面板灯、CPU、内存、硬盘、主板、电源、风扇、功耗、温度、机箱入侵、日志、RAID卡、CMOS电池、IO插槽、分区状态和DVD等。每台设备的具体监控指标视设备类型及设备型号有所不同。

  原型监控系统运行1个月,对17台待测设备检测到的故障告警进行统计,自动识别率达到100%,可覆盖所有IT硬件级告警。

  2.实时性及准确性评估

  由于自然发生的硬件告警难于追踪且不具有典型性,又因为待测IT设备均是开发、测试类设备,所以我们选择人工触发部分告警(或事件)的方式,评估监控的实时性和准确性。我们选择人工触发6组告警(或事件),包括:单路电源掉电;模拟温度异常;机箱入侵;风扇转速的阈值告警;带库I/E槽插入陌生磁带;设备开机。触发方式见表2。

图片7.jpg

  (1)实时性评估,是通过测试从触发告警到监控系统检测到告警的时间来实现的。测试结果见表3。可见,监控系统可在分钟级的时间内检测到硬件告警。相比传统人工巡检,IT硬件监控技术可以大大缩短硬件故障发现和处置时间。

图片7.jpg

  (2)准确性评估,是通过查阅监控系统对告警的描述与实际情况是否吻合来实现的。测试结果见表4。可见,监控系统可准确描述硬件告警信息,指示出告警部件(或指标),这将提高维修的针对性和准确性,大大提升IT硬件运维效率。

图片8.jpg

  本文首先从概念上提出了基于四象限概念划分的带内硬件监控和带外硬件监控的定义;浅析了业界流行的各类监控技术及其适用场景,提出了构建面向大型商业银行数据中心的监控解决方案的配置应用策略。以该策略为指导,通过搭建原型监控系统,对监控效果进行了实际测试,从监控的全面性、实时性及准确性等方面进行了评估。由此可见,合理配置后的硬件监控方案,可大规模运用于商业银行数据中心的IT硬件运维工作,从而大大地提高IT硬件运维效率,提升了监控效果。

(文章来源:中国金融电脑杂志)

(文章作者:中国农业银行 荆峥 李凯 孟丰  芦伟 郑嵘 沈朱哲 曾玉龙)

扫码即可手机
阅读转发此文

本文评论

相关文章