• 快捷搜索
  • 全站搜索

中国银行数据中心运维转型策略与实践

2019-10-11 18:18:07作者:中国银行数据中心总经理 李世京编辑:金融咨询网
数据中心是银行应对信息科技风险的第一线,是银行向客户提供优质金融服务的基石。在迫切的业务需求面前,商业银行传统模式下的IT运维面临着交付效率、运维质量等方面的多重压力,转型升级迫在眉睫。

科技无界限,探索无止境。当前,中国银行的智能化运维建设虽然取得了初步成果,但整体尚处于起步阶段,正在逐步开展技术研究、原型测试和试点建设工作,愿与广大同业进行深入交流,相互借鉴,共同探索智能化运维体系建设之路。

图片1.jpg
中国银行数据中心总经理 李世京

  FinTech时代,全球范围内的社会形态、商业生态和客户行为发生深刻变化,科技赋能效应日益明显。越来越多的企业认识到,IT已经从内部运营支撑工具逐步演进为企业的核心竞争优势,对商业银行更是如此。在新形势下,中国银行陈四清董事长提出了坚持“科技引领、创新驱动、转型求实、变革图强”,建设“新时代全球一流银行”的战略目标。在新战略指引下,中国银行正积极推动数字化转型,把科技元素注入到业务发展和经营管理的全流程、全领域,不断提升核心竞争力。

  数据中心是银行应对信息科技风险的第一线,是银行向客户提供优质金融服务的基石。在迫切的业务需求面前,商业银行传统模式下的IT运维面临着交付效率、运维质量等方面的多重压力,转型升级迫在眉睫。面对挑战,中国银行数据中心选择了智能化运维转型的应对之道,本文重点介绍我们的思考与实践。

一、Fintech时代商业银行IT运营的“危”与“机”

  1.“山雨欲来”——传统运维模式面临严峻挑战

  以数据和技术为核心驱动力的FinTech,正在促进金融业态的重构和金融场景的丰富,改善金融服务的用户体验,加强商业银行的风控能力,提升金融服务的总体效能。同时,FinTech技术在金融领域的创新运用,也给传统商业银行的IT支撑服务能力带来了新挑战。第一,日趋严格的监管要求,对银行业务连续性管理和网络安全防护能力提出更高的要求。第二,IT运营规模不断增长,系统架构日益复杂,对运维自动化水平提出了更高的要求。第三,同业竞争日趋白热化,为拼抢市场、提升客户体验,各银行业务需求均呈爆发式增长,对数据中心的快速交付能力提出了更高的要求。第四,以互联网金融为代表的快速业务创新和以“双11”为代表的爆发型消费模式,对数据中心基础环境资源的弹性伸缩能力提出了更高的要求。第五,在严峻的经营形势下,各银行均大力加强运营成本控制,对数据中心降本增效的能力提出更高的要求。

  传统模式下的IT运维往往“以事件为驱动”,运维人员往往充当“救火队员”的角色,疲于应付。充分发挥运维的价值,化被动为主动,一直是运维部门孜孜以求的目标。

  2.“云开月明”——智能化为运维插上腾飞的翅膀

  在第三波信息技术发展浪潮中兴起的云计算、大数据、物联网、人工智能、生物识别等新技术,既可以与业务应用相融合,为业务发展赋能;同时也可以与银行数据中心传统运维技术相融合,从而催生出新的运维方式,使智能化运营体系的建立成为可能。银行数据中心充分运用新技术成果,加快运维智能化转型,实现数据驱动和智能算法驱动,提升IT管理的效益、效率和体验,是形成与银行数字化战略相适应的服务支撑能力的必由之路,也是IT运维部门充分发挥自身价值,化被动为主动的必由之路。

二、中国银行数据中心智能化运维总体规划

  在前期积极探索、局部试点的基础上,中国银行将智能化运维体系建设列为科技引领数字化发展的重要任务,数据中心成立了智能化运维工作组,以系统工程的思维,强化顶层设计、前瞻规划,整体推进智能化运维体系建设工作。

  1.规划总体思路

  与互联网企业相比,中国银行业务交易类型更为丰富,技术平台更加多样,基础设施架构更为复杂,数据一致性和准确性要求更高,实施难度和挑战也更大。因此,中国银行立足于自身实际需要,结合业界发展趋势,依照“把握一个原则、实现两个融合、提升五大能力”的总体思路,规划智能化运维体系。“把握一个原则”,即把握安全合规与敏捷高效相平衡的原则;“实现两个融合”,即实现云计算、大数据、物联网、虚拟现实、人工智能等新技术与传统运维技术相融合,实现技术手段进步与管理流程优化相融合;“提升五大能力”,即重点提升运行状态的趋势预测能力、生产事件的精准定位能力、运维操作的自动化执行能力、系统的灵活扩展能力和服务的快速交付能力,逐步实现运维模式从事件驱动型向数据驱动型的转变。

  2.智能化运维体系技术框架

  中国银行数据中心以“平台化、集成化、自动化、数据驱动”为目标,设计了智能化运维体系技术框架。该框架共包含:基础设施层、数据算法服务层、自动化运控层、交互管理层、智能化监测层、开发与质量控制层等六个层面。各层面有机协同,共同构成智能化运维体系的技术平台支撑(如图1所示)。

图片2.jpg

  基础设施层:主要是指数据中心的“运维对象”,是智能化运维体系的“地基”,由传统集中式架构下的“两地三中心”环境、新建分布式私有云环境、以及云化资源管理系统三部分构成。

  数据算法服务层:“数据驱动”是智能化运维体系的重要特征。使用配置管理数据库(CMDB)管理应用部署信息、网络配置等静态数据,使用大数据智能算法平台对性能容量、日志、网络流量包等动态数据进行集中收集、存放。利用统计算法、图算法、数据挖掘算法,对多源数据进行关联发掘分析,供智能监控、生产安全管理等上层平台进行模型的训练优化与消费,从而将信息激活并转化为知识和洞察力,作为辅助决策和智能自主判断的依据。

  自动化运控服务层:日常运维自动化、资源供给自动化和应用发布自动化,是数据中心自动化管理的三个关键领域。通过自动化运控服务层,对分散的工具进行整合,集中管理各领域的自动化脚本,以组合编排的方式,形成跨应用、跨平台的关联自动化调用能力,延长自动化链条。同时参考敏捷开发流程和DevOps工程理论,形成以版本交付为核心的开发、测试、投产上线一体化流程。批量自动化平台可以与大数据算法平台联动,用于分析优化批量关键路径,预估批量执行窗口等场景。

  交互管理服务层:该层的核心是流程管理和运维协作两个平台,主要用于承载数据中心大型工程项目跨团队协作所依赖的两条信息流,即流程管理信息流和技术交互信息流。流程管理平台需要进一步发展,使之与自动化的运维操作相适应,逐步实现基于规则的自动化变更审核、自动化流程审批和智能化工单分派。运维协作平台将技术信息的交互过程由线下转为线上,与自动化运控平台、配置管理数据库和云化资源管理系统联动,使配置信息的生产和消费形成闭环,实现数据驱动的完整自动化过程。

  监测服务层:在智能化运维体系中,监测服务层一方面是数据的重要提供者,另一方面也是数据的消费者。监控管理和安全管理,既是运营管理的关键领域,也是落地运用数据挖掘、机器学习、人工智能等新技术的主要场景方向。未来,监测服务层将构建面向应用的监控视图,基于数据算法服务层和自动化运控服务层支持,提升威胁智能化分析、精准告警、问题快速定位等能力,辅助事中决策,并实现应急处置、安全防护、以及用户行为审计的自动化。

  开发与质量控制服务层:通过制订统一的运营工具研发标准、建设运维工具的集成开发测试基础设施、设计中心级运维平台工具的开发框架和公共服务,来兼顾共性与个性的运维需求,实现前述各平台工具的有效集成,形成平台化、整体化的运维工具体系。

  3.智能化运维体系建设策略

  智能化运维体系建设是一项系统性工程,需要协调推进,久久为功,重点应处理好以下几个关键问题:

  一是循序渐进,处理好长远目标与近中期目标的关系。从运维体系发展的规律来看,标准化和自动化是实现智能化的基础和必由之路。同时,在数据中心,标准化和自动化所适用的应用领域,也远多于智能化。因此,中国银行将扎实开展运维标准化工作,不断提升运维自动化的覆盖面,为智能化建设打牢根基。

  二是要分清主次,结合中心发展要求制定合理的实施路径。智能化运维体系工程浩大,实施难度高,需要聚焦重点、有所侧重、持续建设。私有云中心建设是中国银行进行数字化转型的重要举措,数据中心将以此为契机,以适应互联网场景下业务的快速敏捷交付为目标,瞄准业界先进,面向未来,在云环境上率先设计一套高起点的自动化、智能化运维管理平台。

  三是要做好运维数据治理。数据是智能运维的“血液”。在智能化运维体系建设中,需要设计标准化的数据关联格式,逐步实现数据在各平台工具间的交换共享和有序流动,提高数据的综合分析利用效力。

  四是要做好管理流程变革和新型人才培养。智能化运维体系建设涉及“人员、流程、技术”的全面革新,需要统筹推进,任何一方面的短板都可能导致变革失败。因此,建立简明、高效、适用的配套管理机制,培养数量充足的FinTech新型人才队伍至关重要。

三、中国银行数据中心运维转型实践

  近年来,中国银行着力打造“场景生态丰富、线上线下协同、用户体验极致、产品创新灵活、运营管理高效、风险控制智能”的数字化银行。科技体系正积极推进全行云平台、大数据平台、AI平台三个基础平台建设。数据中心的智能化运维转型实践,也首先围绕私有云中心的建设展开。

  1.云中心基础设施建设

  中国银行自2015年开始开展云平台应用实践,在生产中心搭建了云平台,为运维管理和日常办公提供云计算服务支持。同时,也为各分行网络金融类特色业务发展的需求提供托管服务,以自服务模式满足总分行对IT资源快速交付、弹性扩展的需求,为大规模建设云中心积累了经验。

  作为配合数字化转型战略的重要举措,今年以来,中国银行加快推进分布式私有云中心建设,将其作为全行FinTech业务的主要载体。相对于传统数据中心,云数据中心建设转变为面向服务的架构设计,秉承高效、可靠、绿色的设计思路,以基础设施敏捷部署为目标,为提升数据中心的交付能力奠定了基础。通过采用微模块架构、SDN网络技术,构建IaaS平台和PaaS平台,云中心实现了高密度、集约化、自动化的资源分配,有力地支撑了上层应用构建高可靠、高可用、可弹性伸缩的金融业务服务。在此基础上,打造基础设施综合运维门户,基于三维可视化技术对机柜能耗和温湿度进行监控、基于物联网RFID电子标签技术进行资产管理,并探索使用智能巡检机器人、增强现实(AR)技术等辅助运维工具,来实现数字化高效运维。

  2.研发云中心智能化运维平台

  结合数据中心智能运维体系总体规划,在云中心以X86分布式系统为主要运维对象,构建“云图”智能运维体系(如图2所示)。“云图”智能运维体系在设计上以轻量级ITSM为指导思想,在架构上基于开源软件进行分层设计、模块化部署,向下对接混合IT基础设施,向上支持不同类型应用,基于业务与应用视角,实现IT资源服务化运营、应用自动化快速交付、容量智能分析等运维全生命周期闭环管理。

图片3.jpg

  配置管理层面,传统静态资源视图与实时采集的动态资源视图相结合,形成云中心全方位、多层次、多角度的CMDB配置信息库,可为资源容量规划、应用故障排查、交易串联分析等运维场景提供有力支撑。

  运维数据分析层面,通过收集生产中产生的各类系统、应用日志,以及性能数据,运用大数据分析技术与深度学习算法,实现包括动态APM指标监控、容量预测、辅助故障定位、告警聚合等功能,提升运维主动性。

  自动化执行层面,通过工作流引擎实现任务可视化编排,固化日常运维动作,自动化完成安装部署、健康检查等变更操作,强制变更前后自动化校验,达到减少人为失误、促进安全生产的效果。

  DevOps方面,通过引入容器资源编排与集群管理、代码托管与版本管理、CI/CD持续集成与持续部署、项目可视化管理等工具平台,可大幅提高应用从需求提出到最终上线的速度,满足业务的敏捷迭代、快速发布需求。

  安全管控方面,整个“云图”智能运维平台通过数据中心统一的一体化访问控制平台进行单点接入,使用动态口令随机生成密码、操作录屏、操作日志事后审计等技术手段,满足数据中心运维操作安全合规的要求。

  3.配套管理机制转型探索

  精简优化现有制度和流程。中国银行在规划运维转型的过程中,高度重视管理流程与技术平台的融合,以敏捷高效为目标,精简优化资源调配、变更管理、访问控制等配套管理流程,适应未来云中心快速迭代、自动交付的需要。

  积极探索“IT双速”机制。一方面,不断优化提升传统瀑布式项目投产效率;另一方面,与科技体系各部门紧密协同,针对全行战略性重点项目,成立跨部门的高效融合项目组,整合全行科技及业务资源,突破现有项目管理机制,实施全流程敏捷机制,全力做好配套资源保障,实现速赢见效。

  4.积极开展Fintech新型人才队伍培养

  着力打造新型人才队伍。今年以来,中心面向未来发展,建立了“三横三纵”矩阵式培养体系,以“互联网安全专家”、“数据分析师”、“系统架构师”三支新军,以及“英才计划”、“先锋计划”和“兼职讲师计划”三个计划为抓手,积极打造青年专家队伍,为建设新时代全球一流数据中心提供高水准、数量充足的专业人才支持。

  不断壮大运维开发力量。一方面,由专职运维开发团队负责中心级运维工具、运维平台的建设。另一方面,各技术团队成立运维开发小组承担细分领域运维开发任务,打造“统分结合”的运维开发人才队伍,为智能化运维转型奠定坚实的人才基础。

        科技无界限,探索无止境。当前,中国银行的智能化运维建设虽然取得了初步成果,但整体尚处于起步阶段,正在逐步开展技术研究、原型测试和试点建设工作,愿与广大同业进行深入交流,相互借鉴,共同探索智能化运维体系建设之路。

(文章来源:中国金融电脑杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章