• 快捷搜索
  • 全站搜索

工商银行分布式云数据中心在三个方向的探索

2018-05-17 12:17:12作者:工行数据中心(上海)主机平台网络创新实验室负责人 杨利进编辑:金融咨询网
工商银行主机平台网络实验室以建设面向业务多点多活的“分布式云数据中心”为主线,确定多活数据中心、云数据中心和智能运维管理服务三个研究方向,加快基础设施与应用平台的融合,支撑全行业务连续性、资源统一调度与敏捷供应以及IT运营成本有效控制。接下来,实验室还将强调研究成果的转化落地,在完成研究成果检验的同时,推动生产应用发挥效益。

“高可用、敏捷响应、成本可控”是银行业数据中心的基本需求。工商银行主机平台网络创新实验室(以下简称“实验室”)从生产运营实际出发,专注于基础设施和技术架构领域的前瞻性应用研究,以建设面向业务多点多活的“分布式云数据中心”为主线,确定多活数据中心、云数据中心和智能运维管理服务三个研究方向,加快基础设施与应用平台的融合,支撑全行业务连续性、资源统一调度与敏捷供应以及IT运营成本有效控制。

        实验室研究课题不仅从技术视角跟踪分布式事务、智能路由、数据同步和智能化接管等技术的最新发展,通过配置优化、技术提升和管理流程优化有效控制IT基础设施的总体拥有成本(TCO);而且还注重从业务视角看信息化银行业务发展趋势和需求,通过归纳汇总,分别构建与不同类别业务应用场景相匹配的基础架构模型,推动技术架构的标准化和持续演进。
 
        例如:在基础设施领域,要推动设备资源配置的深度定制和新技术应用,研究推广超融合基础架构。在云计算领域,要加快基础设施与应用平台的融合,合理规划和构建物理设备、虚拟机等分层资源池;推动负载均衡、防火墙等网络服务虚拟化,提升基础设施全流程自主服务和敏捷能力,并实现与成本控制的动态平衡。在智能化运维领域,要研究基于运维场景驱动的配置信息集市研究,实现配置项自动采集和服务自注册功能,推动配置信息跨专业融合和共享,夯实面向服务的智能运维基础,推动IT运维数据分析和人工智能技术在信息系统健康检查、问题快速定位以及故障自动化处置等领域的应用。
 
杨利进.jpg
 
一、多活数据中心研究
 
        业务连续性一直以来都是银行信息系统头等重要的事情。2014年6月,随着工商银行数据中心(上海)嘉定园区的启用,工商银行“两地三中心”架构基本建成,成为国内首家具备跨数据中心分钟级切换接管的大型商业银行。
 
        各大商业银行在本世纪前十五年也基本完成了数据大集中和同城、异地数据中心建设,部分先进银行还结合两地优势建成了“两地三中心”,实现了一定程度的双活。除此之外,银行业务,特别是网络金融业务的爆发式增长对银行信息系统的敏捷扩张能力提出了更高的要求。国内外大型互联网企业选择横向扩容的方式,其数据中心的数量、容量、地域分布,特别是多数据中心协作给我们的研究工作提供了启示。
 
        “多活”并不是双活技术的简单线性叠加,如何构建多活数据中心以提升业务连续性水平、更好地利用多数据中心资源,缓解单个数据中心过大过热的压力,是业界共同关心的话题和研究探索的前沿,也是实验室研究的重点。
 
        宏观层面,“活”的主体是数据中心,选取数据载体以及应用的核心组件——数据库作为更小颗粒度对象,则更适宜做技术上的深入研究。同时,数据库也是多活数据中心的关键技术,而对应无状态的操作系统或服务进程实例,保持其“活”的技术相对简单得多。“活”的程度见仁见智,我们依据“活”的程度由低到高依次划分并定义出冷备、热备、只读、分片和全集五个等级,如图1所示。
 
图片1.jpg
 
        其中,冷备不属于“活”的范畴,热备和只读的技术架构是非对称的,具有明显的主从特征,较容易从双活技术架构发展而来。与之相对的是全集等级,其技术架构是完全对称的、去中心化的,实现起来难度最大,多活性价比不佳,历来不是技术研究的热点领域。处在中间的是分片等级,涵盖的内容广、跨度大,依据分片规则和实现技术的不同,既可以是“活”的程度较低、偏中心化的架构,也可以是“活”的程度较高、偏对称化的架构。分片等级作为一个较为理想的性能和成本的平衡点,不但可选用的技术架构最为丰富、灵活,而且业界最新的多活技术研究成果和应用实践也大都集中在这一领域。
 
        多活数据中心实质是一个分布式系统,其核心是一致性问题。2012年,美国耶鲁大学的D.Abadi在CAP定理的基础上提出了一个扩展模型PACELC,即一个系统如果需要处理网络分区(Partition),就必须在可用性(Availability)或一致性(Consistency)之间做出某种权衡;否则(不需要考虑网络分区)的话,就在系统的延时(Latency)和一致性(Consistency)之间做出权衡,这与工程实践更为贴近。
 
        实验室在多活数据中心领域选择基于分布式一致性协议的OLTP数据库、基于分布式消息中间件的多活数据传输复制和分布式存储三个研究子项。在分布式数据库方面,实验室以开源分布式数据库为原型,参照业界案例开展研究。探索自主可控的,满足基于多点多活的业务连续性和灵活横向扩展双重目标的解决方案,进行原型验证和应用试点。
 
        在多活数据传输复制和传输方面,横向比较Kafka、Active MQ、Rabbit MQ等各类开源产品,依据应用场景需求选择适用产品,构建多平台、跨中心的数据复制和传输平台,实现多中心数据复制和传输服务化(Data Replication as a Service ,DRaaS)。
 
        分布式存储方面,通过建设海量、高可用、敏捷供应的分布式存储云,基于同一套存储系统向上层应用提供块、文件和对象三种数据服务,包括各种企业级访问接口、容量、性能和数据保护能力均可按需获取,解除传统专有存储设备绑定,同时实现跨园区多点多活访问的存储高可用保护。目前在数据集中备份和分布式对象存储等应用场景开展了原型设计并完成了功能性测试,同时在基于分布式文件访问方面开展了研究,推动文件系统关键数据由主备模式向多点多活访问模式转型。
 
        “多活”是一种IT架构能力,而从来不是目的。“多活”是实现业务连续性的手段之一,是提高资产利用效率的要求。“多活”也是数据中心竞争力的体现,具体能力与实际部署之间可以存在差异。
 
二、云数据中心演进
 
        随着云计算、大数据、人工智能等新型技术的成熟应用,这些新型技术所采用的分布式、服务化的设计理念,与传统传统数据中心“烟囱式”的部署和管理存在较大差异,同时,应用出现了容器化、服务化、DevOps等新趋势,对于数据中心基础IT资源的灵活敏捷提出了新要求。从数据中心运营层面来看,传统数据中心在云化转型背景下面临的主要挑战包括如何提升资源利用率、如何支撑业务应用快速部署、如何提升内部管理效率三大方面。
 
        该领域研究重点是深入开展云数据中心技术和路线研究,持续推动数据中心资源向快速供应、弹性伸缩、高效利用的管理和调度模式转型,建设能够为工商银行业务和应用架构转型提供友好支撑的基础设施云服务生态圈。
 
        实验室从梳理数据中心现状主要矛盾和业界技术发展趋势两方面入手,以云数据中心云化技术为核心,从技术、架构、流程和管理四个维度进行梳理和对标,形成云化管理能力建设矩阵,如图2所示。
 
图片2.jpg
 
        具体演进内容包括:
 
        (1)分布式资源域规划研究。针对大数据平台、分布式数据库、流处理平台等分布式系统进行规划,综合考虑服务器、存储、网络流量等特性,规划建设分布式资源域,并通过IaaS平台实现自动化快速供应。
 
        (2)多租户管理研究。结合分行测试云、集团子公司托管云研究分级权限隔离,网络隔离,配额管理,自助服务,运维流程调整等多租户的隔离、安全问题,探索多租户管理模式,实现基础IT资源在不同机构间的共享和安全隔离,提升基础IT资源使用效率。
 
        (3)网络功能虚拟化。防火墙、负载均衡虚拟化技术研究及自助服务,探索NFV服务链部署。
 
        (4)端到端自助弹性部署。通过研究流程编排、网络功能虚拟化部署及自助服务等技术,实现一个涵盖网络、计算、存储、数据库、数据迁移、应用交付等全链路端到端弹性部署及扩容的原型。
 
        (5)云备份技术研究。基于分布式对象存储技术,探索研究在多租户场景下云的分层备份,包括云运营层面的容灾和备份、租户系统层的备份、租户应用层的直通备份等自服务的实现。
 
        IaaS演进如图3所示。
 
图片3.jpg
 
        随着工商银行IaaS云落地推广,实验室要不断研究丰富面向用户的自助服务目录并推动落地,统一在云管理平台上建模,面向用户提供统一的管理界面;通过服务封装将复杂流程统一展现为用户能够理解的云服务,降低IT系统交互的复杂性,最终实现面向用户的云服务,解放专业人员。接下来,实验室还将在数据库云化部署领域开展探索研究,期望在高可用、资源利用效率和数据库服务快速供应方面取得新的突破。
 
三、智能化运维
 
        随着数据中心运维规模和复杂度的不断增加,运维人员急需从日常繁杂琐碎、重复例行的日常工作中解放出来,做更多的运维数据分析和复杂问题解决,将工作结果用于提升运维系统的“智力”水平,即所谓AIOps。 AIOps的理想状态就是把运维工作的三大部分监控、管理和故障定位利用机器学习算法的方法有机结合起来。
 
        在大数据时代,智能运维是构建于大数据之上的,不可避免地要用到智能算法,而体现智能算法价值的就是:智能算法需要大量的数据去做支撑。实验室结合业界先进的数据中心运营理念,深入开展人工智能、大数据分析、物联网等技术在数据中心运营领域的应用以及智能化运维方法的研究,认为智能运维应该至少包括3个领域的10种能力(如图4所示)。
 
图片4.jpg
 
        智能数据中心建设以运维数据分析为切入点开展研究,在建设思路上以应用实例推动运维数据分析平台建设,在平台建设中注意与现有运维架构融合与提升。依托运维数据分析平台,实验室从存在运维痛点的实际场景出发,组织力量开展针对性研究,目前对以下场景开展了研究工作:
 
        (1)分布式CMDB建设。在生产主CMDB的基础上建设运维场景驱动的优化配置信息系统,形成“主CMDB+优化系统”的弹性分布式架构。整个系统以控制层为核心,每个运维场景对应一个扩展节点,能够实现扩展节点的快速弹性供应。
 
        (2)网络流量异常监控分析。实现网络设备之间、各设备指标之间的关联性发现,为进一步实现告警关联分析奠定基础,推动网络平台指标统一化,力争面向应用的网络异常流定位。
 
        (3)磁盘性能画像。根据对磁盘性能指标综合打分情况,展示应用磁盘热点盘分布,提供关键指标预警,协助评估应用系统存储优化建议,提供固定阈值及动态基线报警,IO异常智能预测。
 
        (4)主机批量运行时间预估。在批量开始前,精确预测当晚主机批量运行时间,标明影响因素、程度及应急建议,为生产调度决策提供依据;在批量完成后,采用多样化的研究方法,丰富批量分析手段,推动应用和系统环境优化,以技术手段提升数据服务时效和质量。
 
        实验室在具体研究工作中既注重做好业界技术发展跟踪和前瞻性研究,又关注同业和互联企业的应用研究,保证研究方向的正确性。同时从数据中心运营实际出发,以问题为导向,解决生产运营中的痛点。接下来,实验室还将强调研究成果的转化落地,在完成研究成果检验的同时,推动生产应用发挥效益。
 
        实验室集聚了数据中心(上海)一线运维的优秀人才,在过去一年努力实现在知识结构、技术研究和创新应用能力和思维模式上的转型,下一步要更加注重人才队伍建设,优化研究资源投入和激励机制,激发优秀创意,提升实验室影响力以吸引并集聚更多的研究型优秀人才。
 
(文章来源:《中国金融电脑》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章