• 快捷搜索
  • 全站搜索

打造绿色、高效、智能的新一代数据中心

2016-09-22 17:39:05作者:中国建设银行北京数据中心主任 沈秋翔编辑:金融咨询网
新一代数据中心越来越呈现“绿色环保、可靠高效、智能灵活”三个特点,数据中心的规划、建设和运营须更加注重对环境影响最小化,能源效率最大化,IT运行环境更加安全、灵活和高效。

近十年来,伴随着国内各银行数据大集中的潮流,银行业一批新的数据中心应运而生。而今,在互联网经济的驱使下,银行业务和应用快速转型的要求越来越高,银行面临的挑战和竞争日益加剧;同时,日益严苛的监管要求对数据中心能耗和效率提出了更高标准,对其服务水平也提出了更高要求。在此背景下,中国建设银行(以下简称建行)对如何规划、建设和运营新一代的数据中心进行了探索与实践,认为新一代数据中心越来越呈现“绿色环保、可靠高效、智能灵活”三个特点,数据中心的规划、建设和运营须更加注重对环境影响最小化,能源效率最大化,IT运行环境更加安全、灵活和高效。

图片2.jpg

一、“绿色环保”是新一代数据中心的基本要求

   目前,国家己经把节能减排作为发展经济的重要指标,出台了一系列节能降耗减排的决定、法规和政策;业内也陆续出台了《商业银行数据中心监管指引》等多项约束性指标,要求数据中心在保障信息系统高可用和高可靠的基础上,采取环保节能技术,降低能耗。

   1.通过LEED国际绿色认证标准指导规划和建设

   LEED(Leadership in Energy and Environmental Design)认证是美国绿色建筑委员会于2003年推出的评价绿色建筑的权威认证,通过六个方面对建筑项目进行绿色评定,包括:可持续场地设计、有效利用水资源、能源和环境、材料和资源、室内环境质量和革新设计等。该认证标准在国际上得到广泛认可,并在国外数据中心基础建设中广泛应用,但在国内数据中心应用较少。建行根据自身规模,按照LEED银级标准规划和建设北京稻香湖和武汉南湖两个数据中心,以最大程度达到节能减排的效果。

   2.从全生命周期成本考虑数据中心的规划与建设

   数据中心作为一种产品与服务,具有完整的生命周期,包括需求、规划、实施与开通、运行、扩容与更新五个阶段,其生命周期内的总体拥有成本(TCO)不但包括建设时的初始投资,还包括运营成本、水电和网络线路费支出、其他成本等。建行在数据中心规划阶段进行技术选型时,不只是考虑初始投资,而是从数据中心15~20年整个生命周期内TCO的角度考虑。如在考虑空调系统时,选用水冷系统虽然初期投资要高于风冷系统,但从全生命周期角度看,TCO较低。再如在机房模块内气流组织规划中,中密度模块(1.4kW/平方米)选用冷风通道技术是基于全生命周期内节省的电费能够在6年内抵消其初始投资的分析得出的。又如,虽然机房采用水冷冷冻水系统能够节约电能,但在缺水的北京,每天蒸发掉数干吨水的成本更为可观。因此建行因地制宜,在北京稻香湖数据中心采用风冷冷冻水系统,而在武汉南湖数据中心采用水冷冷冻水系统。

   3.广泛应用绿色环保技术

   建行在新数据中心基础设施建设的各个环节中,采用了大量绿色环保技术。如在园区建设中选用了透水地面、节水灌溉、雨水回用系统、可再循环的材料、热回收、冰蓄冷等22项绿色生态技术。在机房基础设施建设中采用了分功率密度模块化机房设计(低密度0.8kW/平方米、中密度1.4kW/平方米、高密度3—3.5 kW/平方米)、冷冻水系统、列间空调近端制冷、自然冷却、全光网络、环保材料等技术。仅以武汉南湖数据中心三栋机房楼为例,这些绿色环保技术的应用,使得机房PUE设计值达到1.6,较传统机房(PUE值2.0),预计每年能够节约近1.09亿度电,减少二氧化碳排放10.5万吨,节约电费1.04亿元,将为建行带来可观的收益。

二、“可靠高效”是新一代数据中心服务水平的风向标

   如何保障业务系统不间断运行,如何加快基础设施的供给和回收,如何降低建设和运营成本,成为反映新一代数据中心服务水平的风向标。传统的银行应用系统多采用集中式处理的部署架构,其计算资源采用双机或集群模式,网络、存储资源均为独享,机房基础设施(供配电和空调系统等)多采用最高等级,存在技术垄断、资源利用率低、部署周期长、运维复杂度高、高可靠带来高成本等问题,无法适应新一代银行业务及互联网金融迅猛发展的市场要求。为此,建行数据中心部署的新一代信息系统从应用软件、平台到IT基础设施各个层面均按照“云架构”进行设计。

   1.通过虚拟化、标准化、池化构建基础设施云

   建行通过VMware等虚拟化技术,将服务器、网络、存储等物理设备一台划分为多台虚机;再根据具体应用需求,将一定数量的虚机组成对应于特定应用场景的物理部署单位;并将多个部署单位联合,按照不同的网络分区形成多个基础设施资源池(如大数据资源池、渠道资源池等)。同时,将应用系统全生命周期(从开发、测试到运维)中使用的lT设备和基础软件全部标准化,在PaaS和IaaS层面构建可靠高效的基础设施云。

   池化的基础设施云可通过虚拟化使资源得到充分利用,通过标准化简化管理。资源池的建设可根据系统增速、IT规划宏观考虑,以月或季度为单位进行构建。应用系统的资源需求按照测试结果和业务规模进行预估,按需以天或小时进行分配。解决了业务需求时效性高和底层基础设施建设相对较慢之间的矛盾,大大提高了资源供给和回收的效率。另一方面,通过多集群并行承担工作负载的冗余设计和动态迁移技术,能够大大提高基础设施的可靠性,一旦出现设备故障,虚机将自动漂移至相关设备并对外正常提供服务。可靠性提高后,应用系统可以多地或多楼宇部署,不需要把所有机房基础设施都建成最高等级,大大降低了成本。目前,建行的新一代信息系统已经运行在自建的私有云上,提高了信息系统的可用性,降低了系统建设成本。

   2.通过分布式架构构建SaaS云

   建行致力于研究分布式架构,在提高应用系统处理能力的同时,大大降低发生故障时的影响。建行的分布式架构按颗粒度不同分为基于SOA功能分布式和单功能内部分布式。

   其中,基于SOA功能分布式是指根据高内聚、低耦合的设计原理,将一个大的应用系统按照不同功能细分为几百个组件,这些组件采用SOA方式进行构建。通过应用系统的划分,可有效提高具体功能的吞吐能力,当某个功能发生问题时,对其他功能少影响甚至不影响。

   单功能内部分布式是指将承担具体功能的组件分解为应用服务器和数据库服务器。应用服务器多采用开源负载均衡软件或硬件负载均衡方式实现工作负载的分发,应用服务器之间独立进行处理。数据库服务器多采用数据库集群方式提高数据库处理能力;采用数据库分片技术将一个数据库分拆为多个数据库,解决单个数据库处理能力不足的问题;采用数据复制、读写分离技术将数据库分解为一个写入数据库和多个只读数据库,提高读多写少的数据库处理能力。

   建行在原有技术基础上开拓创新,提出涵盖IaaS、PaaS、SaaS层的整体“云架构”解决方案,采用融合集中式和分布式优点的混合架构,使用大量廉价集群,部署新一代信息系统,并构建多活和主备模式相结合的灾备体系。此方案既最大限度地利用基础设施资源,又使得信息系统的敏捷性、可用性和并发处理能力都得到大幅提升,从而保证对外提供可靠、高效的IT服务。

三、“智能灵活”是新一代数据中心可持续发展的必由之路

   随着数据中心规模的迅速扩大、承载业务的快速增加、以及系统复杂度的不断提高,传统的人海战术已经无法应对,必须通过智能化工具实现运营资源的灵活调度和各类事件的快速处理。建行依托于金融私有云平台实现了资源的灵活调配,基于生产事件智能化处理系统实现了监控系统从单一报警向事件智能处置的转换,降低了人员成本。

   1.金融私有云平台实现资源动态分配

   目前建行金融私有云平台已实现北京、武汉两个数据中心资源的统一管理,实现基础设施的自动化供给、应用服务的快速发布、资源的动态调整和伸缩,有效提高了运维效率,控制了操作风险,从而进一步提升数据中心运维的标准化、自动化和集约化水平。如建行在应对双十一“秒杀”等业务成倍增长的场景时,通过在资源池内预先创建更多虚拟机,在系统资源不足时立即投入使用,应对突发业务高峰;在“秒杀”结束后,回收这些虚拟机,资源池恢复为原有状态。目前,建行还在不断对金融云平台进行优化,将结合实时性能容量大数据分析,实现资源有效的弹性伸缩,以更灵活的技术手段应对业务突增对系统的冲击。

   2.事件智能化处理系统提高运维支撑和保障能力

   建行通过事件的智能化处置,加快了数据中心的应急响应速度、减少了重大生产事件的发生、降低了生产事件可能造成的业务影响,提高了运维服务质量。经过总结多年的运维经验,梳理专家建议,利用历史事件分析、问题回顾等机制,建行建立了包合流程、关系、分析、处置四个部分的事件分析处理模型。通过主动监控获取大量生产事件,并以事件处置场景为流程入口,借助大数据分析及挖掘、规则引擎等技术,定位故障与业务影响,形成事件自动、半自动或人工处理流程,并实现智能化处理过程的可视化展示。后续建行还将利用机器学习、统计学习等方法建立可自学习的事件分析模型,持续改进处置场景。

   生产事件智能化处理系统能够快速定位和隔离故障、缩短故障处理时间;能够具有自学习能力的事件处理模型,且模型具备不断修正与增减的持续改进机制;能够通过孤岛信息整理、深度分析及总结,缩短问题分析时间,避免同类事件再次发生,从而提高数据中心的运维支撑和保障能力。

   建行在生产事件智能化处理系统实施后取得了显著的效果。目前已形成智能处置方案238个,自动处理脚本1 87个。自2014年4月起,全行每月的事件单量呈递减趋势,全年同比下降了28.5%,事件自动发现率达95%以上,根本原因自动定位率达24%,告警发送量与原始事件之比达1:50,可自动或半自动处置事件占比达38%,新一代信息系统事件业务影响分析覆盖率达100%。

   新一代数据中心的技术和理念在不断发展前进,建行研究和实践的步伐也时刻未成停息,始终努力在新一代数据中心的规划、建设和运营上走出一条适合自己的道路。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章