• 快捷搜索
  • 全站搜索

太保数据集中的架构和策略

2013-10-30 13:53:23作者:中国太平洋保险集团股份有限公司信息技术中心 杨进玉编辑:金融咨询网
险企数据大集中已是一条必经之路。而数据的集中不是简单的物理集中,而应考虑整个企业的应用系统的架构,考虑在应用系统和业务系统间复杂的数据流的最佳ETL实现方式,以及在这个数据大集中实施的前提下,其他因需求而不断接入的应用系统该怎么建设。

近年来保险市场竞争愈加激烈,险企需要扩大信息收集和信息流通、知识发现和知识积累,来提高对市场的反应能力,通过产品细分、客户行为研究来实现产品的个性化,通过削减成本,提升运营效率,来提高核心客户的满意度。而这一切无不要求险企实现全面深入的信息化。这个信息化不是满足于自动化需要,而是要全面支持业务、服务和管理的创新。在这个过程中,数据大集中是一条必经之路。而数据的集中不是简单的物理集中,而应考虑整个企业的应用系统的架构,考虑在应用系统和业务系统间复杂的数据流的最佳ETL实现方式,以及在这个数据大集中实施的前提下,其他因需求而不断接入的应用系统该怎么建设。

1.ODS基本概念和特征

        ODS(Operational Data Store)的概念最早是由“数据仓库之父”Bill Inmon 提出的。Bill Inmon认为,业务应用环境中的数据经过转换和整合进入ODS,提供了一种全局的、集成的和即时的企业操作视图,能够支持企业及时性的决策需求,同时,能够在分散的业务系统和支撑决策分析的数据仓库之间构建一个缓冲,使得数据之间的转换变得相对简单和可控。起初ODS系统最主要的功效是将多个业务系统中分散的数据进行初步的清洗、转换和集成。ODS最初引入企业也是为了寻找能满足快速加载和数据整合的性能要求,并且减少面向分析需求的变更和扩充对生产系统影响的解决方案。这一解决方案便是在生产的业务系统和EDW之间增加一个数据整合层(也叫做数据缓冲层)即ODS。所以,具有数据整合的作用是提出ODS 概念的主要出发点。Kimball(数据仓库和商务智能领域的权威专家)对ODS做了进一步的定义:ODS是“面向主题的、集成的、当前或接近当前的、不断变化的”数据,是集成数据支持事务系统。这也是ODS一个比较客观、普及的说法。他强调,一定要将ODS带入数据仓库中,才能发挥ODS的效能。

        从Bill Inmon和Kimball对于ODS的定义和解释中,不难看出,有数据仓库的地方,难免都会有ODS了。它集成了来自不同业务系统的数据,帮助用户轻松应对跨多个商业功能的操作挑战,实现着面向主题、集成并且近实时的数据存储。但随着IT技术的不断发展,近年来ODS被赋予的功能和作用也得到了扩张和延伸,目前业界普遍认同的观点是:ODS为企业原始运营数据存储提供了一个整合平台,它的信息来自于不同的运营型应用系统(业务系统)。通过约定数据接口,在数据整合业务规则的规范下,通过统一规划、规范框架和数据,ODS可以实现操作型数据整合和各个系统之间的数据交换,能够提供实时的操作型报表以减轻数据仓库的负担。ODS反映的是某一个时间切片瞬间,业务系统和应用系统用以相互交换数据的集合。其存储结构是以企业范围所有相关业务系统的数据,以全面、统一的关系型实体来体现的,其数据是基于分析主题进行组织而不是基于业务系统的功能进行组织。最终,ODS将各个孤立的业务系统的运营数据集成起来,形成企业的统一而全面的数据视图。

        ODS有两种形式:ODS 数据缓冲区和ODS统一信息视图区。ODS数据缓冲区是业务数据流动过程的第一个存储区,最初主要实现数据仓库从各个业务系统的数据源中将数据抽取出来并且装载到ODS数据缓冲区的过程,从而实现统一的、全局的企业数据平台,为后续的数据抽取、清洗、转换过程打下了坚实的基础。对于数据量大的数据源可以采用增量的方式进行抽取,对于经常变化更新的数据一般采用全量的方式进行抽取。ODS数据缓冲区具有实时性的特征,它将各个孤立的业务系统的生产运营数据集成起来,组成统一的、全局的企业数据交换平台。而ODS统一信息视图区是指有选择地集成各类业务源数据,对数据进行抽取、清洗、转换操作,以数据主题域为数据集成的基础对数据进行分类和组织,使用户能够通过统一信息视图区获得跟某个主题域相关的实时性数据。各业务系统和ODS统一信息视图区可以互相访问,可以生成具有实时性的操作性报表和查询某一主题的近期全部信息。可见,两者的区别是明显的,前者主要为业务源数据抽取到数据仓库中提供中间数据缓冲的功能;后者主要是实现按照主题方式的数据存储,并向用户提供快速的报表展示和数据实时查询的功能。

        由于ODS介于企业IT架构中的操作环境(由各种业务系统组成)和分析环境(由企业数据仓库和各种分析应用组成)之间,既承担了数据整合所需的大批量数据获取和准实时数据同步更新功能,又承担了客户统一视图查询、营销活动监控等准实时数据的多维汇总分析功能。ODS是以数据为中心的系统,其核心数据模型是数据整合、数据共享等功能要求的三范式企业信息模型。同时它也需要提供满足查询、报表应用所需的宽表结构、星型结构等模型。其中,企业信息模型是企业所有核心数据和相互关系的统一全局视图,它能够统一业务层面的概念,帮助企业统一规划、规范管理企业数据。从技术的角度来看,ODS也是企业数据架构中较为复杂的一种形态,既要满足数据事务操作要求,又要满足数据分析要求。

        2010年平安银行,采用Teradata平台技术建立了ODS平台,针对平安银行的综合业务系统、信贷系统、国际结算、零售信贷、银行客户信息管理、人力资源、网上银行、理财系统、中间业务系统、信用卡系统等28个业务系统数据,面向银行业务的客户、产品、协议、事件、营销、地域、渠道、财务、资产等10大主题域,实现了银行数据库多维分析,全面、及时地把握银行的经营状况,为银行业务的发展及决策提供了科学参考依据。平安银行ODS系统,基于Greenplum数据库实施。建立了统一数据管理、统一数据处理、统一共有数据模型、统一调度监控以及统一的文件传输五大基础平台,实现集中的数据存储、快速的数据处理和统一的数据发布,集成了多个源系统数据,建立了客户、产品等主数据管理机制。同时支持综合报表、管理会计、客户关系管理系统以及分行数据拆分等数据服务,可加ODS系统为企业正常运营提供了有力的数据支持与保障。

        当前,保险行业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。面对激烈的全球化市场竞争,许多国内外的大型保险公司纷纷实施“以客户为中心,以服务求发展”的经营策略,实现数据集中,提高销售能力及服务质量,增强企业的整体竞争优势。为了及时满足不断新增的应用系统对业务系统数据的需求,以及为了避免业务系统的升级变更对下游应用系统的影响。IDS(Intermediary Data Storage)的概念应用而生。目前,企业实施的IDS系统,更像是数据集中之后的数据流动的枢纽,是数据资产全视角内需求和供应的平台,是企业数据的总线。通过 IDS平台,将上游各个业务系统和下游需方的应用系统有秩序地联系在一起,数据资产实现了“按需采集,按需下发”的灵活而集中的数据交换功能。

2.太保IDS系统概要

        太保IDS系统作为数据资产总线,每日采集各业务系统源数据加载到IDS,进入下一个处理环节。在管理历史数据的同时,对数据进行标准化处理和汇总加工,构建统一数据模型、支持各类集市与应用。各业务部门可按权限共享使用全司业务数据,为业务拓展、管理分析、决策支持提供丰富、统一的数据支持。IDS(Intermediary Data Storage)系统主要实现数据集中、系统解藕、数据标准化等功能。IDS系统实施的作用和重要性可以概述如下:当核心系统发生变更或者升级等其他变动时候不会影响到下游应用系统;可以跨核心业务系统提供数据,对下游系统而言数据整合过程是不可见的;可以查询追溯历史数据,并在IDS系统的基础上开发数据分析的功能,提供增值服务给下游提供高质量的数据,减轻下游系统的负担整合源系统数据,集中各个业务系统的数据。

        2.1 寿险IDS系统

        寿险IDS是寿险的数据集成交换中心,主要承担数据集中与标准化的工作,是寿险数据的统一出口,其目标是形成一个数据交换中心。对于各系统间批量数据的交换,不再由各数据的需求方系统直接连接数据供应方的数据库去取得,各系统都只向IDS提供数据,也都只从IDS提取数据。即把原来系统间数据交换的网状模式改为星形模式。目的是为了减少系统间数据耦合度并为将来进行企业级的元数据管理提供基础平台。寿险IDS系统架构示意图如图1所示。

太保数据集中的架构和策略-图1.jpg

 1 2 3 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章