• 快捷搜索
  • 全站搜索

保险数据仓库建模浅析

2013-12-04 16:20:43作者:中国太平洋保险集团股份有限公司信息技术中心 杨进玉编辑:金融咨询网
保险业务模型的建立,能够帮助险企对保险业务进行全面的梳理。一方面,使得IT人员和管理人员对业务架构图和整个业务的运行情况有了全面的理解,有利于将不同业务按照特定的规律进行分门别类和程序化,另一方面,能够帮助险企进一步地改进业务流程,提高业务效率,以便于更好地指导和管理业务部门的生产。

        在保险业,数据仓库业界比较知名的有三大模型,它们是IBM的IIW、SYBASE的IWS、NCR的FS-LDM。目前正式实施数据仓库的保险企业中平安、太保购买了IIW(Insurance Information Warehouse),泰康购买了IWS(Industry Warehouse Studio(IWS)for Capital Markets)。对保险业数据仓库的这三大模型,IBM较为先进,SYBASE则简单实用,而NCR纯范式建模主要是信息的堆积,模型的实施价值不大,主要倾向于信息规划。但就模型设计思想来看,这三家是各不相同,各有特点,都是有一定借鉴价值的。

        IBM的IIW最重要的方法由Ralph Kimball(自上而下)和W. H. Inmon(自下而上)定义,多维数据模型的特征有两点,一是度量值定义,存储在事实表中,二是维度表定义,定义分析的轴或维度。IIW的线路图是基于自上而下的方法,开始于业务需求采集和业务模型定义(分析业务模型)。定义业务需求是其他工作的前提,由数据建模师和业务部门的专家共同完成。当业务部门创建并批准模型时,逻辑模型建设阶段就开始了。IBM模型考虑到行业内客户的业务差异,对业务进行了较高层次的抽象,将业务系统中的复杂关系用对象间关系来表示。基于这样的思想,一个实际业务数据表装载到模型里是需要向模型对象进行转换的,这给实施带来一定难度,特别是在国内并不规范的业务系统基础上客户化,面临着两难困境:坚持原有的设计思想和架构将造成客户化困难和使用效率低下,按照国内业务系统修改模型,解决了实施的问题却失去了原有的价值,剩下的仅仅是更全面的信息量。

        SYBASE的IWS采用维度建模思想,将业务流程数据转换成事实表,将相对稳定的业务对象和公共代码数据转换成维度表,共同描述业务系统信息。这种设计思想使模型整体结构相对稳定,客户化时仅仅是扩展字段,简化了实施工作。但其弊端也很明显,一是稳定性差:当业务系统扩展产生新的属性时,需要增加模型中的字段,二是访问性能差,大量的流程信息用列来存储,单表记录行数增长很快,大数量的查询性能会成为瓶颈,三是业务信息之间的原始关系被丢弃,转换成同一事实表中的字段,即使一部分关系转换成事实表与缓慢变化维表的关系,也存在一定程度的失真。

        NCR的FS-LDM采用范式建模思想,将业务系统中的信息按照业务特点分门别类,依据属性不冗余的原则划分表。这种设计思想使得模型中的信息一致性较高,客户化时有较强的操作原则,且逻辑模型和物理模型较为接近,便于实施。缺点就是模型中的表太多,使用时需要大量的表关联,性能较低,其次是因为严格的属性划分导致对新业务的冗余性差,模型需要随着业务的发展不断修改,体现不出数据仓库的稳定性。

        保险数据仓库模型是基于业务特点划分信息对象,是对业务进行适度的抽象,在将业务信息项转换成模型中的属性的时候尽量简单直白,避免需要通过另一个属性才能确定该属性的情况。信息对象之间的关系,尽量用对象间的引用来表示(实体关系),复杂关系用一个关系对象表示(实体关系表)。这样的建模思想,对业务进行适度抽象,在设计模型时可以在充分考虑业务现状和未来发展的前提下,将现在和未来一段时期内的业务模式和业务规则抽象成一组信息对象,然后将现在和未来需要的信息属性冗余在信息对象中,使得这组信息对象即能表示现在的业务,也能表示一段时期后的业务。使得这种结构的模型具有较高的访问效率。

2.数据仓库建模方法概述

        逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的建模方法是:第三范式(3NF,即Third Normal Form)、维度建模和基于UML的通用数据建模。

        2.1范式建模

        范式建模法是构建数据模型时常用的方法,该方法主要由bill Inmon提出,解决关系型数据库的数据存储,是一种技术层面上的方法。范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。根据bill Inmon的观点,数据仓库模型的建设方法和业务系统的数据模型类似。在业务系统中,数据模型决定了数据的来源,而数据模型也分为两个层次,即主题域模型和逻辑模型。同样,主题域模型可以看成是业务模型的概念模型,而逻辑模型则是域模型在关系型数据库上的实例化。从业务数据模型转向数据仓库模型时,同样也需要有数据仓库的域模型,即概念模型,同时也存在域模型的逻辑模型。这里,业务模型中的数据模型和数据仓库的模型稍微有一些不同。主要区别在于:①数据仓库的域模型概念应该比业务系统的主题域模型范围更加宽广,它包含了各个域模型间的关系以及各主题域的定义。②在数据仓库的逻辑模型需要从业务系统的数据模型中的逻辑模型中抽象出实体、实体的属性、实体的子类,以及实体的关系等。

        Bill Inmon的范式建模法的最大优点就是从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的建模。但其缺点也相对明显,由于建模方法限定在关系型数据库之上,在某些时候反而限制了整个数据仓库模型的灵活性、扩张性等性能,特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时,需要进行一定的变通才能满足相应的需求。

        在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件: ①每个属性的值唯一,不具有多义性;②每个非主属性必须完全依赖于整个主键,而非主键的一部分;③每个非主属性不能依赖于其他关系中的属性;可以看出,第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。在设计中央数据仓库的逻辑模型时,都按照第三范式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规范处理 (De-Normalize), 以提高系统的响应速度,当然这是以增加系统的复杂度、维护工作量、磁盘使用比率 (指原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。在数据仓库的应用环境中,当数据量不大、报表较固定时可以采用星型模式;对于中央数据仓库,考虑到系统的可扩展能力、投资成本和易于管理等多种因素,最好采用第三范式。

        2.2维度建模

        维度建模法,由Kimball(Ralph Kimball是数据仓库和商务智能领域的权威专家)最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市。这种方法的最被人广泛知晓的名字就是星型模式(Star-schema)。维度建模针对零散的业务流程创建个别的模型。每个模型捕获事实表中的事实,这些事实通过维度表的关联显示在不同视角上的特性。这样的关联和排列所形成的架构叫做星型模型或者雪花模型,在数据仓库设计中也很有效。

        星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。列如在保险行业中,研究保险产品的销售和所拥有的客户情况时,可以考察渠道、险类、个团单、机构等多种因素,这种因素就是维,而保险产品销量或者客户数量就是事实。这种多维模型能迅速给出基于各个维的经营分析报表,但前提是这些维必须事先确定。

        正因为星型模型数据有冗余,很多统计查询不需要做外部的连接操作,所以一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素,设计与实现都比较简单。星型模式被广泛应用并且能够快速形成经营分析的报表,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。通过这些预处理,极大地提高了数据仓库的处理能力。

        但是,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。星型模式另一个显著的缺点是数据的冗余量很大。综合这些讨论,不难得出结论,星型模式比较适合于预先定义好的问题,如需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。

        维度建模以数据分析需求为驱动,倡导总线架构:一致的事实和一致的维度,这种数据模型易于用户理解和数据分析操作。维度建模法的优点是,维度建模非常直观,紧紧围绕着业务模型,可以直观反映出业务模型中的业务问题。不需要经过特别的抽象处理,即可以完成维度建模。但是,维度建模法的缺点也非常明显的,如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准确性,而且在数据仓库的底层,不是特别适用于维度建模的方法。因此综合来看,维度建模的领域主要适用与数据集市层,它的最大的作用其实是为了解决数据仓库建模中的性能问题。

首页 上一页 1 2 3 4 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章