• 快捷搜索
  • 全站搜索

大数据:银行业的机遇与挑战

2013-01-17 15:37:59作者:中国光大银行股份有限公司信息科技部 李番 贾鸿飞编辑:
大数据意味着巨大的商机,可强化客户体验,提高客户忠诚度。形象地说,“数据的收集能力+教据的分析能力=企业智商”。这关乎商塑决策的迅速和准确,关乎企业的生存和发展。

大数据是用来描述数据规模巨大、数据类型复杂的数据集。这些数据集的规模已经超出普通的数据库管理工具在可容忍的运行时间内进行数据的捕获、存储和处理的能力。特别是近年来,伴随着物联网、移动互联网、社交网络的快速发展,企业数据增长迅猛,半结构及非结构化的数据呈几何倍增长;数据来源的渠道也逐渐增多:网络日志、社交媒体,以及遍布各地的传感器网络等。大数据的时代已然来临,大数据分析已成为各行业竞争发展的变革点。而如何有效整合来自移动终端设备、社交网络、PC、传感器网络等产生的结构化、非结构化的海量数据,并加以分析挖掘潜在的业务价值,已成为大数据时代企业经营发展的趋势和焦点。

一、大数据的特点对企业经营管理的重要意义

        1.大数据的特点
         第一,数据规模巨大且增长迅猛从TB级别跃升到PB乃至EB级别。

        第二,数据类型繁多:既包含传统的结构化数据(如文本数据),也包含越来越多的非结构化数据(如网络日志、音频、视频、图片、传感器数据等)。这些数据对处理分析能力提出了更高的要求。

        第三,数据价值极为关键但不易挖掘。由于海量数据中价值密度相对较低,但数据的商业价值却极为重要。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是目前信息化亟待解决的难题。

        2.大数据对企业经营管理的重要意义
         伴随着传统的商业智能系统向纵深应用的拓展,企业决策已经越来越依赖于数据而非直觉经验。然而,传统的数据仓库对于数据分析通常是建立在关系模型的基础之上,面向结构化数据处理,各分析主题之间的关系在系统内已经被创立,而且用以分析的数据也大都是企业自身信息系统中产生的运营数据,这些数据大都是标准化、结构化的。事实上,这些数据只占到了企业所能获取的数据中的15%。

        对于企业而言,85%的数据属于广泛存在于社交网络、物联网、电子商务等媒介的非结构化数据,这些非结构化数据的产生往往伴随着社交网络、移动计算、传感器等新兴渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融台。在大数据时代,企业进行数据分析的背景也发生了变化:(1)要涵盖数据规模;(2)要能真实精确地挖掘商业价值,快速分析响应;(3)要面向丰富多样的数据类型,包括结构化和非结构化的数据。这使得传统解决方案在新的需求面前束手无策。

二、大数据分析的解决方案

        1.大数据分析相关系统
         (1)Hadoop
         Hadoop是效仿谷歌Filesystem和谷歌MapReduce而实现的一套海量数据分布式处理的开源软件框架,被广泛部署运用于雅虎、Facebook等互联网企业。目前,运行于雅虎的Hadoop集群被广泛用于雅虎广告、财经数据以及用户日志等数据的处理分析。

        Hadoop由两部分组成,一部分是HDS分布式文件系统,一部分是MR框架(MaDReduc e Framework)。HDFS是MapReduce的数据存储来源。HDFS按照一定粒度的数据分块来划分文件,并将这些数据分块分散存放在集群中的不同节点,为MapReduce提供并行计算的数据存储。同时,HDFS利用多副本存放策略来保障数据的可靠性、可用性,并提供较高的数据输入输出吞吐率。MapReduce框架是进行海量数据并行计算的框架,由一个作业追踪(Master)节点和多个任务追踪(Worker)节点构成。作业追踪节点用于任务划分、任务调度;而任务追踪节点用于接收来自于作业追踪节点分配的Map或者Reduce任务,并执行这些任务,同时将任务的状态回馈给作业追踪节点。Hadoop通过计算移动到集群中的各个节点,在各个节点进行并行计算任务(Map阶段),产生结果后将集群中各节点的数据汇总反馈至客户端(Reduce阶段)。

        (2)Hive
        Hive是Facebook开源的基于Hadoop的数据仓库平台。通过Hive,可以方便地进行海量数据提取、转化、加载。Hive定义了一个类似于SQL的查询语言HQL,能够将用户编写的SQL转化为相应的MapReduce程序。当然,用户也可以自定义Mapper和Reducer来完成更为复杂的分析工作。作为互联网领域应用最为广泛的开源数据仓库。基于MapReduce的Hive在扩展性和容错性方面有强大的优势,其前景被业界一致看好。但是相比传统并行数据仓库,Hive在存储引擎支持、执行引擎高效化以及多样化接口等方面,有待进一步发展。

        (3)Pig
         Pig是一个基于Hadoop的大规模数据分析平台,使程序员可以更加方便地进行大规模数据处理。Pig Latin是一门吸收了SQL语法的过程式语言。它在保存了过程式语言灵活性的同时,很大程度上吸纳了声明式语言易于进行数据处理描述的特点。该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

        综上所述,目前广泛使用的开源海量数据处理系统大都以Hadoop作为数据存储和并行处理的基础框架一一HDFS提供海量数据存储平台,MR框架提供海量数据并行计算模型。Hive和Pig都是在Hadoop之上提供了类SQL语言的解决方案,这大大减少了并行处理程序开发的难度,使用户不必具备较强的程序编写能力,进而更多地关注业务逻辑。以上海量数据处理系统在高可用性、高容错、扩展性方面都提供了很好的支持。

 1 2 3 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

科技数据中心
大数据:银行业的机遇与挑战

大数据意味着巨大的商机,可强化客户体验,提高客户忠诚度。形象地说,“数据的收集能力+教据的分析能力=企业智商”。这关乎商塑