商业银行建立大数据系统的思考_金融大数据

大数据、集中处理模式、商业银行

数据是银行的资产，合理地运用数据资产，服务好客户，有利于商业银行提升自身价值。随着业务数据规模的不断膨胀和科学技术的飞速发展，当业务需求逐渐迈进大数据分析领域时，所有的大型商业银行终将要建立起自己的大数据分析系统，也必将面临如何统筹未来大数据分析的体系以及在此之上的大数据治理机制。

大数据(BigData)的概念最早起源于20世纪80年代末期，近年来风起云涌的互联网、电子商务、云计算等新兴技术，给这一概念赋予了新的内涵。概括而言，大数据的显著特征是解决海量数据(以TB、PB、EB，甚至ZB、YB为计量单位的数据量)下的计算、分析、存储和管理。

　　迄今为止，关于大数据的定义尚无公认的国际标准，IBM公司在2012年提出的关于“大数据的三大基本特征”获得了业界比较广泛的认同，即“3V理论”：数据规模巨大(Volume)、数据类型繁多(Variety)以及数据处理的速度极快(Velocity)。按照这一准则，对大数据的处理，不仅要针对数据量巨大这一个因素，还要解决数据格式的多样化、存储方法的多样性以及高效的处理速度等问题。

一、大集中处理模式难以应对大数据分析的挑战

　　实际上，数据量的大小是相对的。小型企业的数据群通常可以集中处理，只需建立TB级的数据库，借助常规IT手段就能实现对数据的管理。而大型商业银行(如工、农、中、建、交等)则不同，一方面是因为数据量巨大，另一方面是因为数据存储分散。

　　以中国银行为例，目前最大的两个数据集群是数据下传平台(DCDS)和审计平台(ADPS)，均由总行直接管理。DCDS平台不保留历史数据，压缩后的数据量约为600TB，ADPS平台仅保留IT蓝图上线以来与核心系统和主要外围系统有关的历史数据，压缩后的数据量约为700TB，仅这两个平台的数据量就已经逼近PB级，还不包括大量的海内、外机构自行开发的本地特色业务数据和诸如中银香港、中银基金等众多附属机构的本地数据。

　　面对如此巨大的数据规模，大型商业银行在进行大数据分析和运用时如果没有先期的统筹规划，或者前瞻性的技术架构，则无法适应未来业务发展的需要，也难以实现全球信息一体化的战略目标。换言之，如果各大银行不提前对大数据应用和存储模式进行科学论证，就难以保障业务的可持续发展，甚至可能引发对现有技术架构“推翻重来”的风险。

　　在大型商业银行数据集群越来越多，数据量越来越大且分散存放的情况下，现有的数据大集中模式难以应对。这正是各大商业银行在建造大型数据仓库时过程艰辛、周期漫长，数据的时效性难以满足要求，技术选择反反复复，效果不理想的内在原因。

二、商业银行大数据分析系统的现状和挑战

　　按照IBM的“3V理论”，商业银行建立大数据分析系统的难点体现在三个方面：一是现有的IT资源和技术架构能否灵活处理PB级以上的数据;二是如何管理全球分散存放的数据资源;三是如何快速共享和分析海量数据。

　　大型商业银行业务分析所使用的数据通常不直接取自于交易系统，以便保障交易系统的运行效率。银行一般采取另外构建管理信息系统(MIS)的方式。基本方法是：将各应用系统的数据事先批量下载到MIS系统的数据平台(数据库)上，进行清洗和抽取(ETL)后，形成一系列规模较小的数据集市再进行分析，MIS系统的运作流程如图1所示。

　　鉴于历史原因，各大商业银行的MIS使用的存储架构、硬件设备、管理软件及开发工具等都是几年前、甚至更早之前确定下来的，主要针对集中后的数据进行分析。

　　如今，当需要对分散在整个集团中的各类数据(即更大规模的数据群)进行分析，特别是需要联机分析处理(On-LineAnalyticProcessing，OLAP)时，这一模式就显得“力不从心”了。因为大型的跨国企业很难实时把全球数据集中到总部，数据下载和备份的时间窗口无法满足要求，现有的广域网带宽也不足以支持大规模数据传送。

　　对大型商业银行来说，有时则采取“退而求其次”的方法，即每天只把部分数据汇集到总部，并下载处理。这将导致银行在数据运用的范围和程度上“大打折扣”，无法有效满足管理和业务需求。

　　此外，互联网金融的快速发展也为商业银行提供了更多的外部信息资源。未来商业银行需要与越来越多的外部数据群(如征信系统、监管机构或同业的信息资源库等)互联，以求信息共享，产生更大的业务价值。也就是说，未来商业银行数据分析的资源将更加广泛和多元。

　　在上述背景下，商业银行现有的科技架构能否支持分布式数据管理?是否需要把MIS架构调整到支持大数据分析的技术平台(如Hadoop、分布式数据库、分布式互联、云计算等)之上?

　　答案是肯定的。事实上，云计算、Hadoop、数据湖(DataLake)等新型信息技术大都是面向分布式数据管理的。换言之，数据量的巨大仅是大数据分析的一个特征，其更为重要的特征则是数据分散存储和管理。

　　经过多年的积累，各大商业银行均已建立起了自己的基础数据平台(数据仓库)，并完成了众多数据分析、甚至是超大数据量的分析工作。

　　但如何改变以往基于数据提前下载和海量数据传输的数据分析模式，探索直接对“分散的大数据”进行查询和处理是商业银行大数据分析面临的挑战，需要商业银行对现有的MIS系统进行前瞻性的技术调整，甚至“脱胎换骨”的改造。

三、中国银行中银搜索系统的实施

　　互联网企业的技术路线值得银行借鉴，其采用的分布式互联、分布式存储(Hadoop)，以及广域网下的云计算等先进技术，可实现对爆发增长的海量数据进行存储和管理，并且能够实现全球数据共享、信息查询和对大数据的实时分析。

　　中国银行会计信息部积极探索和运用分布式数据管理等技术，研发了中银搜索系统(用户体验版)，实现了报表分布存放下的信息统一查询。通过这种创新方法，用户可以对分布式的数据群以及多样化的数据格式进行联机查询，能够解决跨异地服务器的统一文件检索，同时支持对海量数据基于语义树的快速查询，能够全面、准确、高效、智能地实施全文检索。

　　在技术层面，中银搜索系统运用了互联网的搜索引擎技术和Hadoop的数据分布存放管理技术。

　　在应用层面，建立了搜索词典到文档数据的索引表，并根据词语在文档中的权重以及语义分析，生成了相关的索引文档表，再结合分布式存储与分层查询树的技术，可实现对TB级的海量数据的全文检索和数据表的快速查询。中银搜索系统同时支持增量实时索引技术，确保了信息的时效性。中银搜索系统架构如图2所示。