• 快捷搜索
  • 全站搜索

浅析金融大数据平台的架构与建设

2016-08-22 16:35:59作者:中兴通讯 王文 李明 戚晨编辑:金融咨询网
金融企业通过建设大数据平台,可以全面梳理全行数据资产、完善全行数据结构、形成全局数据视图,是金融创新潮流的主流选择。作为业界领先的科技公司,中兴通讯在行业市场布局大数据,基础设施与业务落地并重,推出了面向金融行业的大数据综合解决方案。

 金融行业是大数据技术得到广泛应用的行业之一。银行、证券和保险行业都在利用和开发大数据,其中银行业的表现最为突出。作为业界领先的科技公司,中兴通讯在行业市场布局大数据,基础设施与业务落地并重,推出了面向金融行业的大数据综合解决方案。

一、金融行业和大数据的碰撞交织

        大数据对银行业的价值不言而喻。

        在业务上,如何去挖掘客户的内在需求,为客户提供更有价值的服务是目前金融机构的战略转型和业务创新的关键。大数据技术正是金融机构深挖数据资产、实现差异化竞争、推动业务创新的重要工具。

        在运营上,通过大数据应用和分析,金融机构能够定位内部管理短板、制订有效改进措施、优化管理思路,从而降低管理运营成本。

        在风险上,大数据技术有助于降低信息不对称程度,增强风控能力。目前大数据风控管理在金融业已广泛推广,已有小额信贷等成功应用案例。

        相对一般业务系统而言,大数据系统是一个分布式系统、规模较大、组件众多,金融企业对大数据系统在扩展性、可靠性、可控性、安全性、运维方便、资源动态调配、多租户支持等方面提出了诸多需求。

二、金融大数据平台建设现状

        受制于技术成熟度、业务目标、实施进度、运维能力等因素,大数据技术进入金融行业初期,大都采用单个项目为导向的建设方式,难以沉淀全局数据和进行跨业务格局的分析,容易造成竖井式应用,形成新的数据孤岛。同时存在较高的边际成本,无法发挥出大数据技术在成本、性能、处理能力等方面的理论优势。而建立承载多个业务应用、全行统一的大数据平台是大势所趋。

        经过中兴通讯和国内多家银行研讨,为应对未来业务发展和运营的需要,有必要构建一个面向未来互联网架构、可兼容当前银行相关主营业务的的大数据平台,在一个统一的平台之上满足银行对大数据的各种应用需求。目前,国内领先的多家银行已在探索或启动了大数据平台的建设,并在多个创新应用上进行尝试,取得了预期效果。

三、大数据平台定位和架构

        大数据平台定位于以批量处理、流式处理和即时查询方式处理内部或外部海量结构化数据、半结构化数据和非结构化数据。大数据平台与现有业务系统和数据仓库系统的关系为:大数据平台将业务系统作为最重要的基础数据来源,同时充实数据仓库在海量数据处理能力、半结构化、非结构化数据处理和探索式数据分析等方面的不足。

中兴通讯大数据平台总体架构如图1所示。

图片4.jpg
图1 大数据平台总体架构

        1.数据源层

        大数据平台的数据源主要包含行内数据和外部第三方数据源。行内数据主要为客户信息、交易信息和资产信息,主要来源于银行核心系统、信贷系统、卡系统和网上银行等系统。第三方数据主要包含行为数据、位置信息、供应链数据和商业数据等。

        2.数据接入层

        数据接入层包含接收实时数据的消息中间件Kafka、与关系型数据库进行数据导入导出的Sqoop、日志收集工具FIume、爬虫工具Nutch及FTP接口等。

        3.存储层

        存储层包含分布式文件系统HDFS、分布式内存系统Tachyon和列式数据库HBase。

        4.计算层

        计算层包含资源调度工具YARN、覆盖了分布式数据处理的各个方向:批处理计算框架MapReduce、DAG计算框架Spark、SQL查询框架Hive、Impala、Phoenix、流计算框架spark streaming、storm、搜索引擎solr和机器学习算法库Mahout、MLlib等。

        5.数据服务层

        数据服务层是面向业务应用的一个中间层,屏蔽内部不同组件对外接口上的差异,统一以RESTful APl的方式对外提供服务,为上层应用开发提供一个简洁的环境,降低了应用与具体技术的耦合,提升开发效率,并且能够避免扩充组件以及组件升级时对应用开发的影响。

        应用开发层提供了插件方式的作业开发环境、集成了最佳开发实践,提供了ETL作业引擎。

        运维管理包含配置管理、资源管理、日志管理、性能监控、故障管理等功能。zooKeeper是公用的分布式应用程序协调服务,数据安全功能实现了数据加密、误操恢复、操作审计、安全认证、空间隔离、权限控制和多租户管理等功能。

        应用层主要是平台所承载的各种大数据创新应用。

四、大数据平台部署策略

        中兴大数据平台部署既不采用完全划一的统一大集群,也不是每个应用单独一个集群,而是采用介于二者之间的1+N方式部署:大数据平台总体上分为1个基础集群和N个在线集群。

        基础集群用于接收外部导入的数据,主要对数据进行基础加工,可以通过基础集群中的HBase服务来对外提供数据量较大的全量查询。应用集群是为保证重点在线应用的正常运行而单独规划的集群,能够确保重点应用在物理资源上的独占性。这种部署方式既能充分利用大集群强大的存储容量和运算能力,又兼具隔离性、灵活性和扩展性。

五、大数据平台演进方式

        中兴大数据平台演进方式主要分为四种。第一,独立应用迁移,即将原先建设的独立应用迁移至大数据平台,这样可以充分利用基础集群的存储和处理能力,原有孤岛集群统一升级为在线集群,拆解下来的节点可以通过扩容方式加入到基础集群中作为数据节点。第二,在1+N部署策略下,一期首先建设基础集群和若干试点应用集群,此后若干个应用集群逐步上线。随着应用集群的增多,当基础集群存储处理能力不足时,对基础集群实施扩容,实现平台项目和应用项目的稳健推进。第三,系统扩容即平台中的节点大多数为存储/计算节点。一个节点同时兼具数据存储和并行计算能力,平台的存储和计算能力随着节点数量线性增加,扩容节点上线后需进行节点之间的数据均衡,系统扩容时无需中断业务。第四,可以利用平台容错特性,通过逐节点升级的方式实现不需中断业务的组件升级。

六、平台上线效果

        中兴通讯的大数据平台在银行上线之后取得了良好的应用效果,冷数据无需离线存储,实现各类数据的永远在线,提供了跨业务格局的全景数据查询和分析,对原有核心系统及部分外围系统的数据访问起到了分流作用。同时提高了并发访问的性能,提高了数据的处理效率,提升了用户体验和服务质量,有力地支撑了精准营销、风险管理等业务应用。与此同时,由于采用开源技术架构,有利于金融企业实现自主掌控,满足当前监管要求。而使用x86服务器代替小型机,实现了扩展性更强、成本更低。

        金融企业通过建设大数据平台,可以全面梳理全行数据资产、完善全行数据结构、形成全局数据视图。通过批量处理、实时数据流分析和各类即时查询等大数据技术对丰富的数据资源进行开发和利用,是金融创新潮流的主流选择。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章