• 快捷搜索
  • 全站搜索

高效、智能的IT运维体系建设

2016-08-27 18:54:35作者:交通银行数据中心副总经理 郑仕辉编辑:金融咨询网
随着商业银行业务的发展,银行信息化的深入和对客户体验的重视,IT系统的运维也面临着很大的需求和挑战。为应对挑战,保障大规模IT系统安全、稳定运行,需要建立高效、智能的IT运维体系。为此,交通银行数据中心提出了智能化运维的目标,可以简要概括为四个方面,“面向服务、灵敏感知、随需应变、智能处理”。

21世纪初,国内的商业银行先后实现了数据集中,建立了全国集中式的IT运营体系。随着商业银行业务的发展,银行信息化的深入和对客户体验的重视,IT系统的运维也面临着如下的需求和挑战。

作者.jpg

        自动化处理的要求:商业银行的IT系统规模庞大,架构复杂,运维工作十分繁重,而人力资源的扩充跟不上IT系统的增长。量变导致质变,在庞大的IT系统面前,每一项看似简单的工作都变得复杂,必须实现IT运维工作的自动化处理。

        智能洞察的需要:电子渠道对传统柜面业务的替代,对IT系统的实时性和可用性提出了更高要求,需要对IT系统更加灵敏的智能洞察,及时发现并排除潜在的生产隐患。

        及时交付能力:随着银行间竞争加剧,为抢占市场,需要快速、及时地推出新产品,对面向业务的IT交付能力提出了更高要求。

        弹性扩展能力:为应对各种交易高峰(如:元旦、春节、“双十一”等)和业务营销活动产生的高并发交易量的冲击,IT系统需具备弹性扩展能力,根据交易量的增长(回落)动态扩充(回收)资源,削峰填谷,应对交易高峰的冲击,同时又避免IT资源的闲置。

        防范各种风险的能力:需要建立完善的灾难备份体系,保障业务连续性。同时针对各种安全事件和来自互联网的攻击,要能够及时发现并发出风险预警。

        为应对上述挑战,保障大规模IT系统安全、稳定运行,需要建立高效、智能的IT运维体系。为此,交通银行数据中心提出了智能化运维的目标,可以简要概括为四个方面,“面向服务、灵敏感知、随需应变、智能处理”。

一、面向服务:从自动化到生产运维云服务

        为了应对人力资源不足和繁重的工作任务之间的矛盾,交行数据中心制订了“规范化、流程化和自动化”的发展策略;建立了从基础设施、系统安装、版本发布、健康检查、应用配置等一系列的技术标准规范和流程。2009年交行引入了自动化运维平台,实现了从生产系统安装部署、健康检查和安全配置等日常运维工作的自动化。在云计算兴起后,2010年进一步采用云计算技术,在小型机和PC服务器的虚拟化基础上,建立了基础设施资源池。实现了服务器资源的“池”化处理,将“烟囱式”的垂直部署改为资源池的部署模式,并在PaaS层建立了生产运维云服务平台,实现了大规模IT生产系统运维服务的“云化”。通过服务目录的方式,向应用开发和业务人员提供新系统上线等IT服务,向运维人员提供系统安装配置、健康检查、配置发现等运维服务。

        生产运维云服务的实施,大大提高了IT的运维效率,将IT运维人员从繁重的运维工作中解放出来。以系统安装为例,一台小型机分区的安装,需要经历介质上传、各种系统软件安装、配置等70多个步骤,一般需要1周左右的时间。而采用云服务平台,只需要填写相关个性化的需求,其余工作都通过云服务平台自动完成,安装配置的时间可以缩短到2~3小时。在实施运维云服务之前,对数千台小型机分区进行一次全面的健康检查,需要2~3周的时间。在实施云服务之后,每天由云服务平台自动收集信息,将相关数据与标准规范进行检查核对,自动生成检查报告并发送IT人员的邮箱,可以随时检查生产系统的运行情况,能够更加及时地发现潜在的风险隐患。

        此外,交行还将自动化技术应用于灾备切换,自主开发了大规模IT系统的集中控制切换技术,实现了大规模IT系统灾备切换的自动化。并在20 11年实现了海外行系统分钟级的同城灾备切换运行及回切。计划外切换(模拟灾难故障的场景)达到RPO=0,RTO<4分钟的目标,计划内回切则对业务完全透明(RPO=0,RTO=0)。

二、随需应变:容量预测模型和双中心

        为了应对各种交易高峰的冲击,需要根据交易量的大小动态调整资源和相关的参数配置。交行数据中心针对核心、贷记卡、网银等重要业务系统建立了容量管理模型。其中既有针对单套系统的容量预测,例如,大机系统CPU的预测分析模型,该模型通过对历史数据的分析,采用线性回归的方法对大机CPU使用量进行精准的预测,预测值与实际值的误差低于3%;也包括跨系统的容量管理模型,我们建立了银联卡转接系统CPS与核心和贷记卡系统之间的容量管理模型。该模型量化了CPS通道数与核心系统的响应时间和并发量之间的关系,通过动态监控核心系统的响应时间和并发量,动态调整CPS的通道数,避免了因CPS通道过大或过小引起的交易堵塞问题,显著提高了银联卡交易的系统成功率。

        除采用虚拟化和云计算技术实现单机资源的动态扩充外,交行还通过技术创新,突破IBM技术的限制,实现了跨中心的弹性扩展。交行分别于2009年和2011年在国内首次实现了大机系统和开放平台70公里距离的同城双活运行。在业务的低峰期采用单中心模式,而在国庆、“双十一”、元旦、春节等交易高峰期平滑切换到双活模式运行,从容应对交易高峰的冲击。双活架构使得用于灾备的闲置资源可分流生产业务,变传统的灾难备份中心为生产的副中心,大幅节省了生产系统CPU的扩容费用,也使得交行的生产系统具备了跨数据中心的弹性扩展能力。

三、灵敏感知:集中监控和运维大数据分析

         为了及时发现潜在的问题和风险,交行在2007年就建立了完善的监控体系,采用各种监控工具,实现了从基础设施(机房、网络、设备)到系统组件(系统、中间件、数据库、应用系统)监控的全覆盖,并在各个组件监控的基础上,建立了集中监控平台M2(Monitor of Monitor)。M2汇集了各监控系统发出的报警信息,针对这些报警按照不同的风险等级进行分级,按照事件管理流程进行统一告警和跟踪处理。例如:三级以上的告警通过短信发到相关维护人员手机上,而四级告警除短信外,还通过ECC监控人员直接电话通知进行抢修。

        监控体系在保障数据中心生产系统安全稳定运行的过程中发挥了重要作用。但是传统的监控系统也存在一些缺点。例如:监控告警的阀值一般是按照维护人员经验设置的固定值,一些指标在发出告警时,已经影响业务了,维护人员收到告警后只能进行抢修。而实际上监控指标的变化是个随时间变化的系列过程,如果能够根据历史的统计信息建立该指标(随时间)变化的系列模式,在该模式被打破时就及时发出预警,则可以在监控告警之前发现问题,消除隐患。另一方面,一个生产事件可能触及多个组件的监控告警,告警信息之间存在着某种关联,利用这些关联关系,可以使问题的定位分析事半功倍。例如:应用交易缓慢可能是某个磁盘端口不稳定导致的,如果能够及时发现磁盘告警和应用响应时间之间的关联,就可以及时定位并排除问题。

        为了解决上述问题,交行数据中心启动了运维大数据分析项目,利用Hadoop和Spark技术,建立了大数据分析平台,每日收集汇总生产系统和应用交易日志、监控数据、服务器HMC信息、网络日志等数据。采用机器学习、时间系列分析、文本挖掘、关联规则挖掘等算法,从庞大的运维历史数据中发现监控指标的模式和关联规则等,提前发出预警。运维大数据的实施将进一步提高生产系统的可用性。目前该项目已完成了前期的调研和测试论证工作,即将进入实施阶段。

四、智能处理:从自动化到智能化

        在自动化的基础上,基于云计算和大数据技术,数据中心的生产运维正在朝着智能化的方向发展。通过云计算平台,可以进一步实现容量的智能分析和自动化扩充,部分监控报警信息的智能化处理。除了针对监控数据的智能分析提前预警外,还可以利用生产日志对生产故障进行智能化的定位分析。例如:某个系统出现生产问题时,智能化的运维平台可以通过带语义信息的智能搜索,发现最近一段时间出现的相关报错信息,辅助故障定位分析。可以通过在日志中消息的发生概率,自动发现并提示异常的日志等。日志分析还可以发现来自互联网的安全攻击(如:发现网银的盗刷和转账等)。最终将生产运维从自动化提升到智能化处理的层面。

五、结束语

        交行智能、高效的运维体系建设已经取得了丰硕成果,远距离双活的关键技术、大机和CPS的容量管理模型、大规模的灾备切换自动化等技术都申请了专利。目前已经获得4项中国专利授权和1项美国专利授权,另有6项专利已经进入实审阶段。大机、开放一体化的远距离同城双活体系建设获得了2014年人民银行科技发展一等奖。交行的银联卡交易系统成功率近年来一直位居银行同业的前列。随着云计算、运维大数据分析和运维智能化的推进,未来的生产运维将更高效、更稳健、更智能。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章