• 快捷搜索
  • 全站搜索

银行测试数据的可复用管理研究

2016-04-25 23:03:34作者:中国农业银行股份有限公司备援测试中心 周期律 焦伟 周晓聪编辑:金融咨询网
本文结合农业银行在测试数据管理工作上的实践经验,提出了从知识复用及实例复用两个层面建设商业银行测试数据可复用管理体系的思路。以数据脱敏、数据瘦身及数据提取等三项测试数据管理操作为分析对象,详细阐述了如何制定每项操作的知识复用策略及配套自动化系统的建设思路。

商业银行测试数据管理是一项重复度较高且资源开销较大的工作。本文以数据脱敏、数据瘦身及数据提取等三项主流测试数据管理操作为分析对象,首先从知识复用及实例复用两个层面确定了具体复用内容;然后将各项操作的特征、逻辑、模型及方法等知识抽象出来,通过设计一系列表结构及相应规则来对其进行记录、描述及更新,从而将操作的有效知识转化为结构化的信息,大大降低了复用知识的难度,使得基于其上构建自动化处理系统变得易如反掌;最后,通过制定各项操作的实例标准集,并提出整合各项操作的实例标准集管理流程来实现对数据实例的复用,从而使得一次数据处理能满足尽可能多的数据需求,减少冗余数据处理操作带来的资源及时间开销。

一、测试数据可复用管理的背景及思路

         商业银行测试数据管理,旨在为开发、测试、演练、生产错误重现等多种应用场景提供数据支持。以农业银行为例,常规的测试数据管理主要包括以下三项工作。

         (1)数据脱敏:由于商业银行数据关联极为复杂,完全从零开始生成测试环境铺底数据的可行性很低,因此,绝大部分情况下测试环境都是以生产数据为基础。为了防止敏感数据泄露而导致巨大的风险,测试数据管理部门一般会采用技术手段来对数据实施脱敏操作。

        (2)数据瘦身:每天有几十乃至上百个测试环境在支持着各种应用场景,这些场景对于测试数据的需求是不尽相同的,如果每个场景都采用全量测试数据集合,则会占用巨大存储空间,同时导致环境中的各种批量操作耗费大量无效的计算资源。为此,测试数据管理部门可以以全量数据为基础,制作一份能适应广泛应用场景的数据需求、且数据量较小的数据子集。

        (3)数据提取:应用场景的测试环境建立完成后,还要准备齐备各种业务所需的数据才能正常地开展工作,这需要数据管理部门根据数据使用需求,从环境中提取实例数据来完成数据准备。

        为了评价上述测试数据管理工作的效果,可自底向上依据以下三个原则。

        (1)保障数据可用:测试数据管理的底线是确保数据的可用性,如果测试数据无法在应用场景中正常使用,将失去管理意义。假设一份保留了全部特征的全量生产数据集合的可用性为100%,而一份失去了所有特征的测试数据集合(如全部为无意义数值)的可用性为零,那么,如何尽可能保留生产数据集合的特征,以使其可用性的降低控制在一定的幅度,是每项测试数据管理操作必然要考虑的核心目标。

        (2)确保处理高效:由于数据量巨大,常规的测试数据管理工作变得非常耗时耗力,如何采用更高效的技术手段,降低每项测试数据管理操作的时间和空间开销,以使测试数据管理部门能快速响应应用场景需求的变化,是数据管理工作更高一层的目标。

        (3)提高可复用度:测试数据管理工作是一项重复度较高的工作,测试数据可复用管理,旨在将测试数据管理中的有效知识及中间成果沉淀为可复用资源,以提高重复操作效率,降低重复操作错误率,进而逐步形成一套能持续自我积累、更新、优化的管理升级机制,从根本上提升管理水平。

        由此可见,在逐级实现可用及高效这两个底层目标后,如何在测试数据脱敏、瘦身及提取等常规测试数据管理工作中提高可复用度,以提升管理效率及管理质量,变得至关重要。

二、确定可复用内容

        任意一项特定的测试数据管理操作,其核心都可以抽象成对输入数据集进行特定数据处理,并生成输出数据集的过程(如图1所示)。

银行测试数据的可复用管理研究-图1.jpg

         数据处理的目的是将输入数据集处理成符合特定数据管理需求的输出数据集,其处理效果的关键依赖于对输入数据进行特征分析、逻辑抽象、模型设计及方法构建的质量。处理完成后,输出数据集既可直接发布给应用场景使用,也可作为其他测试数据管理操作的输入数据集。由此,测试数据可复用内容可以与之对应地划分到两个层面:

        (1)知识复用层面

        在进行特定数据处理时,复用具有广泛共性,产生关键作用,且易于沉淀积累的特征、逻辑、模型、方法等组成的有效知识,以使得未来的数据处理能快速运用已有知识,提高处理效率及质量。

        (2)实例复用层面

        数据处理完成后,复用能满足更多使用需求的输出数据集,使得更多的应用场景及其他测试数据管理操作能直接使用实例数据,减少反复数据处理造成的效率低下问题。

        然而,并非所有的内容都适合开展可复用管理,只有当引入可复用管理后,其提高管理效率及质量的收益远远大于其付出的管理代价时,才有必要开展可复用管理。进一步将此标准细化,可得到确定可复用内容的三条主要原则:一是内容的重复度较高;二是内容的影响面较大;三是能制定出可行且代价较小的可复用策略。其中前两条原则用以评判管理收益,第三条原则用以评判管理代价。

        以此标准对数据脱敏、数据瘦身及数据提取三项主要测试数据管理工作进行分析,具体的可复用内容包括:

       (1)对于测试数据脱敏操作,知识复用内容包括敏感性识别方法,脱敏处理方法,存量数据的敏感性信息及相应脱敏方法。实例复用内容为根据不同的数据覆盖面,敏感性去除范围及强度等需求而生成的脱敏数据集。

        (2)对于测试数据瘦身操作,知识复用内容包括数据关联关系,瘦身处理方法,特定应用需求的瘦身子集范围及相应瘦身处理方法。实例复用内容为根据不同的数据覆盖面、数据量缩减比例及数据关联保留程度等需求而生成的瘦身数据集。

         (3)对于数据提取操作,知识复用内容包括基础数据的数据结构,特定数据类别对应实例数据的提取方法,特定数据类别对应实例数据的有效性校验方法。实例复用内容为根据不同应用场景及业务逻辑需求而生成的业务数据集。

 1 2 3 4 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章