- 快捷搜索
- 全站搜索
6.MapReduce实现的大额、可疑规则。利用MapReduce的强大分布式计算能力,在Map端分别对个人、对公、账户(和客户)的本、外币,借方、贷方的交易金额、交易次数、交易平均金额、销户次数、与上一次交易时间差、异常还款等信息进行初步统计。在Combiner端进行数据深加工,进一步计算各项统计信息、加工需要的数据,从而减少集群上需要传输的数据量。在Reduce端根据规则判断个人、对公的账户、客户是否触发了大额、可疑的规则,如果触发了规则,则按照设定的格式生成大额、可疑预警信息表。
7.数据加载优化。数据加载优化改造前:须经过数据落地、解压、PUT等,步骤繁琐,本地向HDFS传输数据量大,占用大量集群磁盘空间。数据加载优化改造后:数据无需解压落地,gzip压缩文件直接加载,向HDFS传输数据量小,节约集群磁盘空间,方便MapReduce程序使用。
用5G的Gzip压缩文件做测试,改造前解压耗费时间9m53.031s;put耗费时间18m51.607s;共耗费时间28 m44.638s,改造后共耗费时间6m40.631s。
8.集群配置及优化。对集群的调优要与集群上运行计算任务的负载模式相匹配,根据对集群负载情况的监控,对集群持续优化调整,主要采取以下措施:扩大shuffle的内存配置——MapReduce Shuffle阶段可能产生数次内存向磁盘的溢写,提高分配给Shuffle的内存可以减少溢写次数提升性能。提升Reduce端数据获取并行度——在数据传输阶段Reduce端使用合理的并发线程(20个)去Map端获取数据可以提升Shuffle过程的性能。提升Reduce端归并排序并行度——在Reduce端进行数据的归并处理时调整扩大归并算法的线程数目可以提高Shuffle阶段排序效率。选择合适的HDFS文件分片大小——Map Task启动时需要启动JVM初始化Map函数,通过对HDFS中文件分片大小的配置影响Map Task数目节省初始化Map-Task的开销。
四、实验结果与总结
以某月终全量数据处理为例,比对原数据库的生产环境,运行情况如表1所示。
从测试结果可以看出,与传统数据库相比较,Hadoop技术在数据加载、数据处理、规则计算方面都有很大优势,大大减小了系统全过程处理的时间。特别在数据加载和规则计算方面有绝对优势,且Hadoop的数据处理量远大于原数据库的数据处理量,Hadoop处理了一元以上的所有交易,而原数据库仅处理了较大金额的交易。
从Hadoop在反洗钱系统中应用的经验来看,Hadoopp在银行数据分析应用中,有广泛的适用场景,在数据加载、表关联、时间拉链、各项统计指标计算加工、数据存储等方面都有明显的技术优势。Hadoop在反洗钱系统中的应用实践为我行大数据处理及分析型应用使用Hadoop探索了可行之路。
(文章来源:《金融电子化》杂志)
推进行业多应用是金融IC卡发展的重点也是一大难题,宁波地区开展的金融IC卡
IT蓝图是对中行应用系统的全面替换和升级,包括应用架构、基础设施、信息安