• 快捷搜索
  • 全站搜索

主机批量作业监控模型及实现

2016-10-14 14:29:08作者:中国工商银行数据中心(上海) 何宏烨编辑:金融咨询网
当前,在计算机主机的应用处理模式中,批量处理作为一种事后数据处理方式,一直是一种简单而又非常重要的处理方式,尤其是对于海量数据处理。现有的主机系统上还没有成型的系统和产品来监控主机批量处理,因此本文提供了一种主机批量作业监控模型及实现方法,以解决计算机主机批量数据处理的自动监控问题。

当前,在计算机主机的应用处理模式中,批量处理作为一种事后数据处理方式,一直是一种简单而又非常重要的处理方式,尤其是对于海量数据处理,批量方式就更能显示其高效的处理效果。随着批量处理变得越来越复杂,以及对批量处理时效性的要求,迫切需要有一种有效的、快速的批量作业数据监控方案,以实现对主机批量处理的自动监控。

  现有的主机系统上还没有成型的系统和产品来监控主机批量处理,因此本文提供了一种主机批量作业监控模型及实现方法,以解决计算机主机批量数据处理的自动监控问题。

一、主机批量作业监控模型原理

  主机批量作业监控模型主要原理为:捕捉主机批量作业的作业信息,生成数据采集触发指令;根据数据采集触发指令在预定时间内收集作业执行数据,-并存储作业执行数据;将作业执行数据与预先定义的作业及批量监控阈值数据进行对比,判断作业执行状态,产生并存储预警信息及报表信息;将预警信息以预先定义的通知策略通过展示界面或邮件发送或短信通知的方式发出;根据报表信息进行报表处理及生成,通过展示界面提供绘甩户。

  主机批量作业监控模型包含如下模块(如图1所示)。

图片5.jpg

  (1)信息捕获单元:用于捕捉主机批量作业的作业信息,生成数据采集触发指令。

  (2)数据采集单元:用于根据数据采集触发指令在预定时间内收集作业执行数据,并存储作业执行数据。

  (3)集中处理单元:用于将作业执行数据与预先定义的作业及批量监控阈值数据进行对比,判断作业执行状态,产生并存储预警信息及报表信息。

  (4)预警输出单元:用于将预警信息以预先定义的通知策略通过展示界面或邮件发送或短信通知的方式发出。

  (5)报表输出单元:用于根据报表信息进行报表处理及生成,通过展示界面提供给用户。

  主机批量作业监控模型工作流程为:信息捕获单元捕捉到作业开始及结束信息后通知数据采集单元在预定时间触发执行数据采集任务,收集作业执行数据存储到集中处理单元的输入模块中,集中处理单元的分析模块对比集中处理单元的输入模块及集中处理单元的配置模块中的信息,判断作业执行状态,产生预警及报表信息存储到集中处理单元输出模块中。预警输出单元接收到集中处理单元输出模块中的预警信息,根据预先定义的通知策略通过展示界面、邮件发送、短信通知等方式发出预警。报表输出单元接收到集中处理单元输出模块中数据进行报表处理及生成,通过展示界面提供给用户。

二、主机批量作业监控模型实现

  主机批量作业监控模型主要包括四个子系统:作业执行结果监控子系统、作业执行时间监控子系统、批量处理时间监控子系统和批量关键路径监控子系统。

  1.作业执行结果监控子系统

  (1)监控方法

  主机作业开始及结束时都会产生相应的信息来进行标识,作业结束时会生成一个返回码,用来反映作业执行结果,其取值范围为0~4095。当返回码小于等于最大允许值时则认为作业正常完成,否则作业就是异常中断。作业中断就要进行相应处理,通常需要再次重新执行。不同的作业其返回码最大允许值也不尽相同,取决于作业的属性及用途,一般由作业开发人员指定。通过捕获作业的返回码,可以实现对作业执行结果的监控。

  (2)监控实现

  作业执行结果监控子系统通过获取作业结束信息,与配置模块中参数进行比对来监控作业执行结果是否符合预期,其工作流程如下(如图2所示)。

图片6.jpg

  ①步骤S201:信息捕获单元捕捉到作业结束信息,通知数据采集单元执行数据收集任务。

  ②步骤S202:数据采集单元执行预定义的数据收集任务,将收集的数据储存至集中处理单元的输入模块中。收集的数据包括作业名、作业返回码。数据格式示例见表1。

图片7.jpg

  ③步骤S203:集中处理单元分析模块读取配置模块中的作业返回码最大允许值参数,并与输入模块中作业返回码进行比较。返回码最大允许值参数为预先定义的,通常由作业开发人员提供,参数表数据格式示例见表2。

图片8.jpg

  ④步骤S204:作业返回码小于等于最大允许值,则作业完成。将作业完成信息,包括作业名、作业开始时间、作业完成时间、作业执行时间存储至输出模块。

  ⑤步骤S205:将输出模块中作业完成信息记录至报表输出单元,进行报表处理及生成,并通过展示界面提供给用户。

  ⑥步骤S206:作业返回码大于最大允许值,则作业中断。生成预警信息存储至输出模块,预警信息包含作业名、中断时间、作业返回码。

  ⑦步骤S207:预警输出单元接收输出模块中的预警信息,根据预先定义的通知策略通过展示界面、邮件发送、短信通知等方式发出预警。

   2.作业执行时间监控子系统

   (1)监控方法

   通常,当作业的处理对象未发生变化时,其执行时间波动很小,因此从作业执行时间历史数据中可以得到固定的执行时间阈值。通过比对作业当前的执行时间与历史执行时间阈值,即可对作业的执行状态进行监控。

  作业执行时间阈值参数为预先定义的,可选取一段时间作业的平均执行时间加上调整值作为作业执行时间阈值。调整值需要根据监控预期来进行调整,如选取最近30天作业的平均执行时间,可接受的作业最大执行时间为正常时间的1.2倍,则调整值为最近30天作业的平均执行时间乘以0.2,即作业执行时间阈值=最近30天作业的平均执行时间+最近30天作业的平均执行时间×0.2。通常对于同一个作业,在特殊情况下其执行时间会发生变化,如工作日、双休日、月初、月末、年末处理等,这和作业的属性及用途相关,因此在制定作业执行时间阈值时需要对这些情况进行区分。当作业处理对象发生变化时,需要重新制定执行时间阈值,从发生变化后作业执行时间历史数据中提取。

  (2)监控实现

  作业执行时间监控子系统通过获取当前执行作业运行时间信息,与配置表中作业执行时间阈值进行比对来监控作业执行时间是否超时。其工作流程如下(如图3所示)。

图片9.jpg

   ①步骤S301:数据采集单元执行预定义的数据收集任务,收集当前正在执行的作业信息。收集的数据包括作业名、作业开始时间、作业执行时间。数据格式示例见表3。

图片10.jpg

   ②步骤S302:数据采集单元将收集的数据储存至集中处理单元的输入模块中。

   ③步骤S303:集中处理单元分析模块读取配置模块中的作业执行时间阈值参数,并与输入模块中数据进行比较。作业执行时间阈值参数表数据格式示例见表4。

图片11.jpg

  ④步骤S304:作业执行时间未超过阈值,监控过程结束。

  ⑤步骤S305:作业执行时间超过阈值,生成预警信息存储至输出模块,预警信息包含作业名、执行时间、超过执行阈值时间。

  ⑥步骤S306:预警输出单元接收输出模块中的预警信息,根据预先定义的通知策略通过展示界面、邮件发送、短信通知等方式发出预警。

   3.批量处理时间监控子系统

   (1)监控方法

   目前,由于批量处理越来越复杂,作业规模越来越庞大,为了便于管理,可对批量进行拆分,按照应用类型及功能划分为不同的子批量。同时,对批量及子批量指定起始及结束作业,用以标识批量及子批量处理的开始及结束。通过捕获批量及子批量起始及结束作业的开始结束时间,即可获得批量及子批量的执行情况。

  (2)监控实现

  批量处理时间监控子系统通过获取批量起始及结束作业运行信息,监控批量处理时间是否符合预期。其工作流程如下(如图4所示)。

图片12.jpg

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章