• 快捷搜索
  • 全站搜索

HDQ填补历史数据近线存储空白

2012-12-27 11:22:37作者:沈俊编辑:
高数据依赖、高性能耗用类型的应用可以“复用HDQ硬件平台,定位于HDQ硬件平台上的另一个应用,与HDQ系统原应用程序逻辑隔离”的方式构建,大幅节省新建系统费用。

原始性的业务数据目前在银行以两种形式存储,即在源业务系统存储,或以磁带备份方式存储——在线存储”和“离线存储”。但源业务系统一般是OLTP型操作系统,各类历史数据占用了业务系统大量的存储空间,使源业务系统不堪重负。是否有可能建立可接纳多来源原始历史数据的“近线存储”,一方面将历史数据以及对历史数据的查询功能从源业务系统予以剥离;另一方面为各种需要精确历史数据的应用服务?

        这些问题成为许多银行研究的课题,其难点如下:移出源业务系统,进入“近线存储”的数据如何确保其与源业务系统的一致性(原始性)和准确性;对庞大的历史数据,在满足其原始性和完整性存储的基础上,是否有更加节约的存储模式;海量的历史数据纳入“近线存储”后,是否可以在高数据负载的情况下依旧提供高效、安全的数据访问服务?浦发银行提出了自己的解决方案——基于数据指纹和链式存储的历史数据查询系统(HDQ)。    

一、系统实现的主要目标
        HDQ系统建设项目需要实现如下目标:以无损的方式将源系统原始数据存储;HDQ中的数据可以重现源业务系统相关数据在历史中某一天的原貌;HDQ系统需要寻求最为节约的数据存储模式;在高数据负载的情况下HDQ依旧提供高效、安全的数据访问和获取服务。

二、系统关键设计原则
        HDQ系统建设遵循以下原则。

        1.数据的原始性和可追溯性。HDQ系统需要保存原始数据,即“原汁原味”的数据。磁带备份和HDQ两者都绝对忠实于源系统的原始数据状况。原始性的深层次含义即“可追溯性”,就如同通过磁带备份可以恢复已备份的任一天源系统原始历史数据状况,HDQ系统也需要具备“追溯已存储的任一天源系统原始历史数据状况”的能力。仅部分流水数据具有数据追溯能力,而大部分数据只具备T-1日的数据追溯能力,不能认为达到了“原始性”原则和“可追溯性”原则要求。原始性和可追溯性是HDQ系统(数据)可信度的基础,如果HDQ系统无法保证其数据的原始性,某种程度上,就失去其存在的意义。

        2.简单性。HDO管理的各种业务系统的数据量非常大,数据量越大,越要求简单的架构、流程和操作,HDQ系统设计和编码实现要遵循此原则。此原则和“原始性/可追溯性”原则是HDQ建设的最重要原则,也是最高原则,其他原则服从或服务于此原则。

        3.节约性。HDQ系统需要寻找最优的节约化方法,实现IT投入——包括机器性能、存储、备份等资源的节约化。节约性的另一层含义即“不浪费”。对于HDQ系统而言,存储未来不会被在线查询或在线导出的数据,就是浪费。HDQ系统对数据存储范围的选择采用了“需求驱动”的方法论,即只存储与查询需求、导出需求相关的源系统数据。

        4.基于“数据无关性”的普适性。HDQ系统是以能实现同时管理多个业务系统的历史数据为出发点而设计的。具有对于各种来源、类型的结构化数据普适的数据加载、存储、访问、备份机制,成为HDQ系统的关建设计原则。HDQ的“普适性”从数据视角解读,即HDQ与所加载源系统数据的业务语义、源系统的数据库、数据结构无关。

三、系统关键技术特点
        1.数据的链式存储。数据的链式存储组织设汁方案如下:对HDQ中的所有数据记录给出其数据生命有效期,标示为hds—begin_dt和hds—end一dt两个日期戳,分别表示某记录的有效起始日期和结束日期结束日期为“9999/99/99”的数据表示至今活动并有效。各条数据通过日期戳形成“数据拉链”,整体构成了“链式的数据存储组织模式”。

        链式存储的数据组织方式达到如下效果:将原始业务系统每日数据完全、无损地存储,达到了“原始性”原则和“可追溯性”原则设计要求;不存在数据冗余,存储效率高,查询效率高,达到了“节约性”设计原则的要求;所有入库数据统一的链式数据组织方式,体现了“数据无关性”,也符合“简单性”原则和“普适性”原则的设计要求。

        但数据链式存储的完成存在以下技术前提,即:今日数据和昨日数据需要比较,才可以得到数据的“变化集”,进而组织数据拉链。

 1 2 3 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章