• 快捷搜索
  • 全站搜索

农行反洗钱系统探路Hadoop应用

2014-04-02 10:56:40作者:中国农业银行软件开发中心 闰焕德 韩叶茂 曹震编辑:金融咨询网
从Hadoop在农行反洗钱系统中应用的经验来看,Hadoopp在银行数据分析应用中,有广泛的适用场景,在数据加载、表关联、时间拉链、各项统计指标计算加工、数据存储等方面都有明显的技术优势。

  6.MapReduce实现的大额、可疑规则。利用MapReduce的强大分布式计算能力,在Map端分别对个人、对公、账户(和客户)的本、外币,借方、贷方的交易金额、交易次数、交易平均金额、销户次数、与上一次交易时间差、异常还款等信息进行初步统计。在Combiner端进行数据深加工,进一步计算各项统计信息、加工需要的数据,从而减少集群上需要传输的数据量。在Reduce端根据规则判断个人、对公的账户、客户是否触发了大额、可疑的规则,如果触发了规则,则按照设定的格式生成大额、可疑预警信息表。

  7.数据加载优化。数据加载优化改造前:须经过数据落地、解压、PUT等,步骤繁琐,本地向HDFS传输数据量大,占用大量集群磁盘空间。数据加载优化改造后:数据无需解压落地,gzip压缩文件直接加载,向HDFS传输数据量小,节约集群磁盘空间,方便MapReduce程序使用。

  用5G的Gzip压缩文件做测试,改造前解压耗费时间9m53.031s;put耗费时间18m51.607s;共耗费时间28 m44.638s,改造后共耗费时间6m40.631s。

  8.集群配置及优化。对集群的调优要与集群上运行计算任务的负载模式相匹配,根据对集群负载情况的监控,对集群持续优化调整,主要采取以下措施:扩大shuffle的内存配置——MapReduce Shuffle阶段可能产生数次内存向磁盘的溢写,提高分配给Shuffle的内存可以减少溢写次数提升性能。提升Reduce端数据获取并行度——在数据传输阶段Reduce端使用合理的并发线程(20个)去Map端获取数据可以提升Shuffle过程的性能。提升Reduce端归并排序并行度——在Reduce端进行数据的归并处理时调整扩大归并算法的线程数目可以提高Shuffle阶段排序效率。选择合适的HDFS文件分片大小——Map Task启动时需要启动JVM初始化Map函数,通过对HDFS中文件分片大小的配置影响Map Task数目节省初始化Map-Task的开销。

四、实验结果与总结

  以某月终全量数据处理为例,比对原数据库的生产环境,运行情况如表1所示。

攫取数据价值-决胜未来格局-表1.jpg

  从测试结果可以看出,与传统数据库相比较,Hadoop技术在数据加载、数据处理、规则计算方面都有很大优势,大大减小了系统全过程处理的时间。特别在数据加载和规则计算方面有绝对优势,且Hadoop的数据处理量远大于原数据库的数据处理量,Hadoop处理了一元以上的所有交易,而原数据库仅处理了较大金额的交易。

  从Hadoop在反洗钱系统中应用的经验来看,Hadoopp在银行数据分析应用中,有广泛的适用场景,在数据加载、表关联、时间拉链、各项统计指标计算加工、数据存储等方面都有明显的技术优势。Hadoop在反洗钱系统中的应用实践为我行大数据处理及分析型应用使用Hadoop探索了可行之路。

(文章来源:《金融电子化》杂志)

 

首页 上一页 1 2

扫码即可手机
阅读转发此文

本文评论

相关文章